The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results
The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describe...
Main Authors: | , , , , , , , |
---|---|
Format: | Article in Journal/Newspaper |
Language: | English |
Published: |
European Languages Resources Association
2020
|
Subjects: | |
Online Access: | https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc |
id |
ftnrccanada:oai:cisti-icist.nrc-cnrc.ca:cistinparc:ffd6a1c8-d1ad-4b55-9262-44b3c49623fc |
---|---|
record_format |
openpolar |
spelling |
ftnrccanada:oai:cisti-icist.nrc-cnrc.ca:cistinparc:ffd6a1c8-d1ad-4b55-9262-44b3c49623fc 2023-05-15T15:19:07+02:00 The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results Le corpus parallèle inuktitut – anglais du Hansard du Nunavut 3.0 avec résultats préliminaires de traduction automatique ᓄᑖᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᑎᑎᕋᖅᑕᐅᓯᒪᔪᓂᑦ ᓄᓇᕗᒻᒥ ᒐᕙᒪᖓᑦᑕ ᐱᓕᕆᐊᖏᓐᓂᙶᖅᑐᑦ, ᐃᓄᒃᑎᑑᖅᑐᑦ ᖃᓪᓗᓈᑎᑑᓕᖅᓯᒪᔪᓂᒃ ᑲᑎᙵᓪᓗᑎᒃ - ᐊᒻᒪ ᖃᕋᓴᐅᔭᒃᑯᑦ ᑐᑭᓕᐅᖅᑕᐅᓯᒪᔪᑦ ᐃᓄᒃᑐᑦ ᖃᓪᓗᓈᑐᓪᓗ ᖃᓄᐃᒻᒪᖔᑕ ᓇᓗᓇᐃᖅᓯᔾᔪᑕᐅᓪᓗᓂ Joanis, Eric Knowles, Rebecca Kuhn, Roland Larkin, Samuel Littell, Patrick Lo, Chi-kiu Stewart, Darlene Micher, Jeffrey 2020-05 text https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc eng eng European Languages Resources Association Proceedings of LREC-2020, LREC 2020, Publication date: 2020-05 Inuktitut SMT traduction automatique statistique NMT traduction automatique neuronale sentence alignment alignement des phrases machine translation for polysynthetic languages traduction automatique de langues polysynthétiques Indigenous languages langues autochtones ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ article 2020 ftnrccanada 2023-02-26T00:01:23Z The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describes a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language or an Indigenous language of the Americas released to date. The paper describes the alignment methodology used, the evaluation of the alignments, and preliminary experiments on statistical and neural machine translation (SMT and NMT) between Inuktitut and English, in both directions. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Cet article décrit un nouveau corpus parallèle inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. L’article décrit la méthodologie utilisée pour créer les alignements et pour évaluer la qualité de ceux-ci. On y présente des résultats préliminaires en traduction automatique statistique et neuronale entre l’inuktitut et l’anglais dans les deux directions. ᐃᓄᒃᑎᑐᑦ ᐅᖃᐅᓯᖅ, ᐃᓚᒋᔭᐅᓪᓗᓂ ᐃᓄᐃᑦ-ᔪᐱᒃ-ᐅᓇᖓᓐ ᐅᖃᐅᓯᖓᓐᓄᑦ, ᐅᖃᐅᓯᐅᔪᖅ ᑲᓇᑕᐅᑉ ᐅᑭᐅᖅᑕᖅᑐᖓᓂ ᐊᔾᔨᐅᙱᖦᖢᓂᓗ ᓄᓇᕐᔪᐊᕐᒥ ᐅᖃᐅᓯᐅᔪᓂᒃ ᐅᖃᐅᓰᑦ ᐋᖅᑭᒃᓯᒪᓂᖏᑦᑕ ᑐᑭᖏᑦ ᑐᑭᕋᓛᖃᐅᕐᓂᖏᓐᓄᑦ. ᐃᓕᓴᕆᔭᐅᓯᒪᓪᓗᓂ ᐅᖃᐅᓯᐅᔪᖅ ᓄᓇᕗᒻᒥ ᓄᓇᑦᓯᐊᕗᒻᒥᓗ, ᐊᒻᒪ ᒪᓕᒐᖅᑎᒍᑦ ... Article in Journal/Newspaper Arctic inuit Inuit–Yupik inuktitut Northwest Territories Nunavut Territoires du Nord-Ouest Unangan Yupik National Research Council Canada: NRC Publications Archive Arctic Nunavut Northwest Territories Canada |
institution |
Open Polar |
collection |
National Research Council Canada: NRC Publications Archive |
op_collection_id |
ftnrccanada |
language |
English |
topic |
Inuktitut SMT traduction automatique statistique NMT traduction automatique neuronale sentence alignment alignement des phrases machine translation for polysynthetic languages traduction automatique de langues polysynthétiques Indigenous languages langues autochtones ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ |
spellingShingle |
Inuktitut SMT traduction automatique statistique NMT traduction automatique neuronale sentence alignment alignement des phrases machine translation for polysynthetic languages traduction automatique de langues polysynthétiques Indigenous languages langues autochtones ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ Joanis, Eric Knowles, Rebecca Kuhn, Roland Larkin, Samuel Littell, Patrick Lo, Chi-kiu Stewart, Darlene Micher, Jeffrey The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results |
topic_facet |
Inuktitut SMT traduction automatique statistique NMT traduction automatique neuronale sentence alignment alignement des phrases machine translation for polysynthetic languages traduction automatique de langues polysynthétiques Indigenous languages langues autochtones ᐅᖃᐅᓯᓪᓗᐊᑕᑦ: ᒪᕐᕉᒃ ᐅᖃᐅᓰᒃ ᐃᓄᒃᑎᑐᑦ-ᖃᓪᓗᓈᑎᑐᑦ ᐅᖃᐅᓯᖏᑦ ᓄᐊᑕᐅᓯᒪᔪᑦ ᖃᕋᓴᐅᔭᒃᑐᑦ ᑐᑭᓕᐅᕆᓂᖅ ᐃᓄᒃᑎᑐᑦ ᖃᓪᓗᓈᑎᑐᓪᓗ ᓄᓇᕗᑦ ᒐᕙᒪᖓᑦᑕ ᐊᐅᓚᑕᐅᓂᖏᑦ |
description |
The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This paper describes a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language or an Indigenous language of the Americas released to date. The paper describes the alignment methodology used, the evaluation of the alignments, and preliminary experiments on statistical and neural machine translation (SMT and NMT) between Inuktitut and English, in both directions. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Cet article décrit un nouveau corpus parallèle inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. L’article décrit la méthodologie utilisée pour créer les alignements et pour évaluer la qualité de ceux-ci. On y présente des résultats préliminaires en traduction automatique statistique et neuronale entre l’inuktitut et l’anglais dans les deux directions. ᐃᓄᒃᑎᑐᑦ ᐅᖃᐅᓯᖅ, ᐃᓚᒋᔭᐅᓪᓗᓂ ᐃᓄᐃᑦ-ᔪᐱᒃ-ᐅᓇᖓᓐ ᐅᖃᐅᓯᖓᓐᓄᑦ, ᐅᖃᐅᓯᐅᔪᖅ ᑲᓇᑕᐅᑉ ᐅᑭᐅᖅᑕᖅᑐᖓᓂ ᐊᔾᔨᐅᙱᖦᖢᓂᓗ ᓄᓇᕐᔪᐊᕐᒥ ᐅᖃᐅᓯᐅᔪᓂᒃ ᐅᖃᐅᓰᑦ ᐋᖅᑭᒃᓯᒪᓂᖏᑦᑕ ᑐᑭᖏᑦ ᑐᑭᕋᓛᖃᐅᕐᓂᖏᓐᓄᑦ. ᐃᓕᓴᕆᔭᐅᓯᒪᓪᓗᓂ ᐅᖃᐅᓯᐅᔪᖅ ᓄᓇᕗᒻᒥ ᓄᓇᑦᓯᐊᕗᒻᒥᓗ, ᐊᒻᒪ ᒪᓕᒐᖅᑎᒍᑦ ... |
format |
Article in Journal/Newspaper |
author |
Joanis, Eric Knowles, Rebecca Kuhn, Roland Larkin, Samuel Littell, Patrick Lo, Chi-kiu Stewart, Darlene Micher, Jeffrey |
author_facet |
Joanis, Eric Knowles, Rebecca Kuhn, Roland Larkin, Samuel Littell, Patrick Lo, Chi-kiu Stewart, Darlene Micher, Jeffrey |
author_sort |
Joanis, Eric |
title |
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results |
title_short |
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results |
title_full |
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results |
title_fullStr |
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results |
title_full_unstemmed |
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 with preliminary machine translation results |
title_sort |
nunavut hansard inuktitut–english parallel corpus 3.0 with preliminary machine translation results |
publisher |
European Languages Resources Association |
publishDate |
2020 |
url |
https://nrc-publications.canada.ca/eng/view/accepted/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/eng/view/object/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc https://nrc-publications.canada.ca/fra/voir/objet/?id=ffd6a1c8-d1ad-4b55-9262-44b3c49623fc |
geographic |
Arctic Nunavut Northwest Territories Canada |
geographic_facet |
Arctic Nunavut Northwest Territories Canada |
genre |
Arctic inuit Inuit–Yupik inuktitut Northwest Territories Nunavut Territoires du Nord-Ouest Unangan Yupik |
genre_facet |
Arctic inuit Inuit–Yupik inuktitut Northwest Territories Nunavut Territoires du Nord-Ouest Unangan Yupik |
op_relation |
Proceedings of LREC-2020, LREC 2020, Publication date: 2020-05 |
_version_ |
1766349307877785600 |