The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results

The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describe...

Full description

Bibliographic Details
Main Authors: Joanis, Eric, Knowles, Rebecca, Kuhn, Roland, Larkin, Samuel, Littell, Patrick, Lo, Chi-kiu, Stewart, Darlene, Micher, Jeffrey
Format: Article in Journal/Newspaper
Language:English
Published: European Languages Resources Association 2020
Subjects:
SMT
NMT
Online Access:https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
id ftnrccanada:oai:cisti-icist.nrc-cnrc.ca:cistinparc:ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
record_format openpolar
spelling ftnrccanada:oai:cisti-icist.nrc-cnrc.ca:cistinparc:ffd6a1c8-d1ad-4b55-9262-44b3c49623fc 2023-05-15T15:19:07+02:00 The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results Le corpus parallèle inuktitut – anglais du Hansard du Nunavut 3.0 avec résultats préliminaires de traduction automatique ᓄᑖᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᑎᑎᕋᖅᑕᐅᓯᒪᔪᓂᑦ ᓄᓇᕗᒻᒥ ᒐᕙᒪᖓᑦᑕ ᐱᓕᕆᐊᖏᓐᓂᙶᖅᑐᑦ, ᐃᓄᒃᑎᑑᖅᑐᑦ ᖃᓪᓗᓈᑎᑑᓕᖅᓯᒪᔪᓂᒃ ᑲᑎᙵᓪᓗᑎᒃ - ᐊᒻᒪ ᖃᕋᓴᐅᔭᒃᑯᑦ ᑐᑭᓕᐅᖅᑕᐅᓯᒪᔪᑦ ᐃᓄᒃᑐᑦ ᖃᓪᓗᓈᑐᓪᓗ ᖃᓄᐃᒻᒪᖔᑕ ᓇᓗᓇᐃᖅᓯᔾᔪᑕᐅᓪᓗᓂ Joanis, Eric Knowles, Rebecca Kuhn, Roland Larkin, Samuel Littell, Patrick Lo, Chi-kiu Stewart, Darlene Micher, Jeffrey 2020-05 text https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc eng eng European Languages Resources Association Proceedings of LREC-2020, LREC 2020, Publication date: 2020-05 Inuktitut SMT traduction automatique statistique NMT traduction automatique neuronale sentence alignment alignement des phrases machine translation for polysynthetic languages traduction automatique de langues polysynthétiques Indigenous languages langues autochtones ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ article 2020 ftnrccanada 2023-02-26T00:01:23Z The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describes a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language or an Indigenous language of the Americas released to date. The paper describes the alignment methodology used, the evaluation of the alignments, and preliminary experiments on statistical and neural machine translation (SMT and NMT) between Inuktitut and English, in both directions. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Cet article décrit un nouveau corpus parallèle inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. L’article décrit la méthodologie utilisée pour créer les alignements et pour évaluer la qualité de ceux-ci. On y présente des résultats préliminaires en traduction automatique statistique et neuronale entre l’inuktitut et l’anglais dans les deux directions. ᐃᓄᒃᑎᑐᑦ ᐅᖃᐅᓯᖅ, ᐃᓚᒋᔭᐅᓪᓗᓂ ᐃᓄᐃᑦ-ᔪᐱᒃ-ᐅᓇᖓᓐ ᐅᖃᐅᓯᖓᓐᓄᑦ, ᐅᖃᐅᓯᐅᔪᖅ ᑲᓇᑕᐅᑉ ᐅᑭᐅᖅᑕᖅᑐᖓᓂ ᐊᔾᔨᐅᙱᖦᖢᓂᓗ ᓄᓇᕐᔪᐊᕐᒥ ᐅᖃᐅᓯᐅᔪᓂᒃ ᐅᖃᐅᓰᑦ ᐋᖅᑭᒃᓯᒪᓂᖏᑦᑕ ᑐᑭᖏᑦ ᑐᑭᕋᓛᖃᐅᕐᓂᖏᓐᓄᑦ. ᐃᓕᓴᕆᔭᐅᓯᒪᓪᓗᓂ ᐅᖃᐅᓯᐅᔪᖅ ᓄᓇᕗᒻᒥ ᓄᓇᑦᓯᐊᕗᒻᒥᓗ, ᐊᒻᒪ ᒪᓕᒐᖅᑎᒍᑦ ... Article in Journal/Newspaper Arctic inuit Inuit–Yupik inuktitut Northwest Territories Nunavut Territoires du Nord-Ouest Unangan Yupik National Research Council Canada: NRC Publications Archive Arctic Nunavut Northwest Territories Canada
institution Open Polar
collection National Research Council Canada: NRC Publications Archive
op_collection_id ftnrccanada
language English
topic Inuktitut
SMT
traduction automatique statistique
NMT
traduction automatique neuronale
sentence alignment
alignement des phrases
machine translation for polysynthetic languages
traduction automatique de langues polysynthétiques
Indigenous languages
langues autochtones
ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ
ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ
ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ
spellingShingle Inuktitut
SMT
traduction automatique statistique
NMT
traduction automatique neuronale
sentence alignment
alignement des phrases
machine translation for polysynthetic languages
traduction automatique de langues polysynthétiques
Indigenous languages
langues autochtones
ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ
ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ
ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ
Joanis, Eric
Knowles, Rebecca
Kuhn, Roland
Larkin, Samuel
Littell, Patrick
Lo, Chi-kiu
Stewart, Darlene
Micher, Jeffrey
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
topic_facet Inuktitut
SMT
traduction automatique statistique
NMT
traduction automatique neuronale
sentence alignment
alignement des phrases
machine translation for polysynthetic languages
traduction automatique de langues polysynthétiques
Indigenous languages
langues autochtones
ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ
ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ
ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ
description The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describes a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language or an Indigenous language of the Americas released to date. The paper describes the alignment methodology used, the evaluation of the alignments, and preliminary experiments on statistical and neural machine translation (SMT and NMT) between Inuktitut and English, in both directions. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Cet article décrit un nouveau corpus parallèle inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. L’article décrit la méthodologie utilisée pour créer les alignements et pour évaluer la qualité de ceux-ci. On y présente des résultats préliminaires en traduction automatique statistique et neuronale entre l’inuktitut et l’anglais dans les deux directions. ᐃᓄᒃᑎᑐᑦ ᐅᖃᐅᓯᖅ, ᐃᓚᒋᔭᐅᓪᓗᓂ ᐃᓄᐃᑦ-ᔪᐱᒃ-ᐅᓇᖓᓐ ᐅᖃᐅᓯᖓᓐᓄᑦ, ᐅᖃᐅᓯᐅᔪᖅ ᑲᓇᑕᐅᑉ ᐅᑭᐅᖅᑕᖅᑐᖓᓂ ᐊᔾᔨᐅᙱᖦᖢᓂᓗ ᓄᓇᕐᔪᐊᕐᒥ ᐅᖃᐅᓯᐅᔪᓂᒃ ᐅᖃᐅᓰᑦ ᐋᖅᑭᒃᓯᒪᓂᖏᑦᑕ ᑐᑭᖏᑦ ᑐᑭᕋᓛᖃᐅᕐᓂᖏᓐᓄᑦ. ᐃᓕᓴᕆᔭᐅᓯᒪᓪᓗᓂ ᐅᖃᐅᓯᐅᔪᖅ ᓄᓇᕗᒻᒥ ᓄᓇᑦᓯᐊᕗᒻᒥᓗ, ᐊᒻᒪ ᒪᓕᒐᖅᑎᒍᑦ ...
format Article in Journal/Newspaper
author Joanis, Eric
Knowles, Rebecca
Kuhn, Roland
Larkin, Samuel
Littell, Patrick
Lo, Chi-kiu
Stewart, Darlene
Micher, Jeffrey
author_facet Joanis, Eric
Knowles, Rebecca
Kuhn, Roland
Larkin, Samuel
Littell, Patrick
Lo, Chi-kiu
Stewart, Darlene
Micher, Jeffrey
author_sort Joanis, Eric
title The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
title_short The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
title_full The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
title_fullStr The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
title_full_unstemmed The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
title_sort nunavut hansard inuktitut–english parallel corpus 3.0 with preliminary machine translation results
publisher European Languages Resources Association
publishDate 2020
url https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc
geographic Arctic
Nunavut
Northwest Territories
Canada
geographic_facet Arctic
Nunavut
Northwest Territories
Canada
genre Arctic
inuit
Inuit–Yupik
inuktitut
Northwest Territories
Nunavut
Territoires du Nord-Ouest
Unangan
Yupik
genre_facet Arctic
inuit
Inuit–Yupik
inuktitut
Northwest Territories
Nunavut
Territoires du Nord-Ouest
Unangan
Yupik
op_relation Proceedings of LREC-2020, LREC 2020, Publication date: 2020-05
_version_ 1766349307877785600