The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describe...
Main Authors: | , , , , , , , |
---|---|
Format: | Article in Journal/Newspaper |
Language: | English |
Published: |
European Languages Resources Association
2020
|
Subjects: | |
Online Access: | https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc |
Summary: | The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describes a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language or an Indigenous language of the Americas released to date. The paper describes the alignment methodology used, the evaluation of the alignments, and preliminary experiments on statistical and neural machine translation (SMT and NMT) between Inuktitut and English, in both directions. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Cet article décrit un nouveau corpus parallèle inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. L’article décrit la méthodologie utilisée pour créer les alignements et pour évaluer la qualité de ceux-ci. On y présente des résultats préliminaires en traduction automatique statistique et neuronale entre l’inuktitut et l’anglais dans les deux directions. ᐃᓄᒃᑎᑐᑦ ᐅᖃᐅᓯᖅ, ᐃᓚᒋᔭᐅᓪᓗᓂ ᐃᓄᐃᑦ-ᔪᐱᒃ-ᐅᓇᖓᓐ ᐅᖃᐅᓯᖓᓐᓄᑦ, ᐅᖃᐅᓯᐅᔪᖅ ᑲᓇᑕᐅᑉ ᐅᑭᐅᖅᑕᖅᑐᖓᓂ ᐊᔾᔨᐅᙱᖦᖢᓂᓗ ᓄᓇᕐᔪᐊᕐᒥ ᐅᖃᐅᓯᐅᔪᓂᒃ ᐅᖃᐅᓰᑦ ᐋᖅᑭᒃᓯᒪᓂᖏᑦᑕ ᑐᑭᖏᑦ ᑐᑭᕋᓛᖃᐅᕐᓂᖏᓐᓄᑦ. ᐃᓕᓴᕆᔭᐅᓯᒪᓪᓗᓂ ᐅᖃᐅᓯᐅᔪᖅ ᓄᓇᕗᒻᒥ ᓄᓇᑦᓯᐊᕗᒻᒥᓗ, ᐊᒻᒪ ᒪᓕᒐᖅᑎᒍᑦ ... |
---|