The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results

The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describe...

Full description

Bibliographic Details
Main Authors: Joanis, Eric, Knowles, Rebecca, Kuhn, Roland, Larkin, Samuel, Littell, Patrick, Lo, Chi-kiu, Stewart, Darlene, Micher, Jeffrey
Format: Article in Journal/Newspaper
Language:English
Published: European Languages Resources Association 2020
Subjects:
SMT
NMT
Online Access:https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
Description
Summary:The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describes a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language or an Indigenous language of the Americas released to date. The paper describes the alignment methodology used, the evaluation of the alignments, and preliminary experiments on statistical and neural machine translation (SMT and NMT) between Inuktitut and English, in both directions. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Cet article décrit un nouveau corpus parallèle inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. L’article décrit la méthodologie utilisée pour créer les alignements et pour évaluer la qualité de ceux-ci. On y présente des résultats préliminaires en traduction automatique statistique et neuronale entre l’inuktitut et l’anglais dans les deux directions. ᐃᓄᒃᑎᑐᑦ ᐅᖃᐅᓯᖅ, ᐃᓚᒋᔭᐅᓪᓗᓂ ᐃᓄᐃᑦ-ᔪᐱᒃ-ᐅᓇᖓᓐ ᐅᖃᐅᓯᖓᓐᓄᑦ, ᐅᖃᐅᓯᐅᔪᖅ ᑲᓇᑕᐅᑉ ᐅᑭᐅᖅᑕᖅᑐᖓᓂ ᐊᔾᔨᐅᙱᖦᖢᓂᓗ ᓄᓇᕐᔪᐊᕐᒥ ᐅᖃᐅᓯᐅᔪᓂᒃ ᐅᖃᐅᓰᑦ ᐋᖅᑭᒃᓯᒪᓂᖏᑦᑕ ᑐᑭᖏᑦ ᑐᑭᕋᓛᖃᐅᕐᓂᖏᓐᓄᑦ. ᐃᓕᓴᕆᔭᐅᓯᒪᓪᓗᓂ ᐅᖃᐅᓯᐅᔪᖅ ᓄᓇᕗᒻᒥ ᓄᓇᑦᓯᐊᕗᒻᒥᓗ, ᐊᒻᒪ ᒪᓕᒐᖅᑎᒍᑦ ...