id ftnrccanadadr:oai:dr-dn.cisti-icist.nrc-cnrc.ca:c7e34fa7-7629-43c2-bd6d-19b32bf64f60
record_format openpolar
institution Open Polar
collection NRC Digital Repository (National Research Council Canada)
op_collection_id ftnrccanadadr
language Inuktitut
topic parallel corpus
corpus parallèle
machine translation
traduction automatique
sentence alignment
alignement des phrases
indigenous languages
langues autochtones
low-resource languages
langues à faibles ressources
spellingShingle parallel corpus
corpus parallèle
machine translation
traduction automatique
sentence alignment
alignement des phrases
indigenous languages
langues autochtones
low-resource languages
langues à faibles ressources
Joanis, Eric
Knowles, Rebecca
Kuhn, Roland
Larkin, Samuel
Littell, Patrick
Lo, Chi-kiu
Stewart, Darlene
Micher, Jeffrey
The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0
topic_facet parallel corpus
corpus parallèle
machine translation
traduction automatique
sentence alignment
alignement des phrases
indigenous languages
langues autochtones
low-resource languages
langues à faibles ressources
description The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This dataset is a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language, or an Indigenous language of the Americas, released to date. Accompanying the corpus is a subset of gold standard alignments for alignment evaluation purposes, and scripts to replicate the preprocessing used in our baseline machine translation experiments. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Ce nouvel ensemble de données est un corpus inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. Le corpus est accompagné d'un sous-ensemble d'alignements de référence pouvant servir à l’évaluation de méthodes d’alignement, ainsi que de scripts pour reproduire le prétraitement utilisé dans nos expériences de base de traduction automatique. The alignment of the corpus and the accompanying documentation and scripts were produced by the National Research Council of Canada. L'alignement du corpus et la documentation et les scripts qui l'accompagnent ont été produits par le ...
format Dataset
author Joanis, Eric
Knowles, Rebecca
Kuhn, Roland
Larkin, Samuel
Littell, Patrick
Lo, Chi-kiu
Stewart, Darlene
Micher, Jeffrey
author_facet Joanis, Eric
Knowles, Rebecca
Kuhn, Roland
Larkin, Samuel
Littell, Patrick
Lo, Chi-kiu
Stewart, Darlene
Micher, Jeffrey
author_sort Joanis, Eric
title The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0
title_short The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0
title_full The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0
title_fullStr The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0
title_full_unstemmed The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0
title_sort nunavut hansard inuktitut–english parallel corpus 3.0
publisher National Research Council of Canada
publishDate 2020
url https://nrc-digital-repository.canada.ca/eng/view/object/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60
https://doi.org/10.4224/40001819
https://nrc-digital-repository.canada.ca/eng/view/dataset/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60
https://nrc-digital-repository.canada.ca/fra/voir/objet/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60
geographic Arctic
Canada
Northwest Territories
Nunavut
geographic_facet Arctic
Canada
Northwest Territories
Nunavut
genre Arctic
inuit
Inuit–Yupik
inuktitut
Northwest Territories
Nunavut
Territoires du Nord-Ouest
Unangan
Yupik
genre_facet Arctic
inuit
Inuit–Yupik
inuktitut
Northwest Territories
Nunavut
Territoires du Nord-Ouest
Unangan
Yupik
op_relation Publication date: 2020-01-23
doi:10.4224/40001819
op_rights For the text of this corpus: © Legislative Assembly of Nunavut 1999-2020
Pour le texte de ce corpus : © Assemblée législative du Nunavut 1999-2020
For the scripts and documentation accompanying this corpus: © Her Majesty in Right of Canada 2020
Pour les scripts et la documentation accompagnant ce corpus : © Sa Majesté la reine du chef du Canada 2020
Creative Commons Attribution 4.0 International (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/)
Creative Commons Attribution 4.0 International (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/deed.fr)
We chose the license CC-BY-4.0 because it allows derivative works, such as improved sentence alignments or trained machine translation systems, while requiring that any derivative work convey our full Copyright, disclaimer and license statement, and a description of changes you make. Please include this LICENSE file and the accompanying README file in any derivative work of this work.
Nous avons choisi la licence CC-BY-4.0, qui autorise la production d’œuvres dérivées, tels qu’un alignement amélioré ou un système de traduction automatique entraîné, tout en exigeant que de telles œuvres dérivées préservent nos avis de Copyright, de non-responsabilité, de licence ainsi qu’une description des changements apportés. Prière d’inclure les fichiers LICENSE et README accompagnant le corpus avec toute œuvre dérivée créée à partir de ce corpus.
You are encouraged to work with this corpus to train machine translation systems or any other NLP technology.
Nous vous encourageons à utiliser ce corpus pour créer des systèmes de traduction automatique ou toute autre technologie langagière.
You are encouraged to work with this corpus to improve on our alignments: that is why we provide not only the aligned corpus, but also the raw text in one-paragraph-per-line format, and the gold standard evaluation alignments.
Nous vous encourageons à améliorer les alignements du corpus : c’est la raison pour laquell
op_rightsnorm CC-BY
op_doi https://doi.org/10.4224/40001819
_version_ 1766347696982982656
spelling ftnrccanadadr:oai:dr-dn.cisti-icist.nrc-cnrc.ca:c7e34fa7-7629-43c2-bd6d-19b32bf64f60 2023-05-15T15:17:27+02:00 The Nunavut Hansard Inuktitut–English Parallel Corpus 3.0 Le corpus parallèle inuktitut – anglais du Hansard du Nunavut 3.0 Joanis, Eric Knowles, Rebecca Kuhn, Roland Larkin, Samuel Littell, Patrick Lo, Chi-kiu Stewart, Darlene Micher, Jeffrey 2020-01-23 text https://nrc-digital-repository.canada.ca/eng/view/object/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60 https://doi.org/10.4224/40001819 https://nrc-digital-repository.canada.ca/eng/view/dataset/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60 https://nrc-digital-repository.canada.ca/fra/voir/objet/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60 iku iku National Research Council of Canada Conseil national de recherches du Canada Publication date: 2020-01-23 doi:10.4224/40001819 For the text of this corpus: © Legislative Assembly of Nunavut 1999-2020 Pour le texte de ce corpus : © Assemblée législative du Nunavut 1999-2020 For the scripts and documentation accompanying this corpus: © Her Majesty in Right of Canada 2020 Pour les scripts et la documentation accompagnant ce corpus : © Sa Majesté la reine du chef du Canada 2020 Creative Commons Attribution 4.0 International (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/) Creative Commons Attribution 4.0 International (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/deed.fr) We chose the license CC-BY-4.0 because it allows derivative works, such as improved sentence alignments or trained machine translation systems, while requiring that any derivative work convey our full Copyright, disclaimer and license statement, and a description of changes you make. Please include this LICENSE file and the accompanying README file in any derivative work of this work. Nous avons choisi la licence CC-BY-4.0, qui autorise la production d’œuvres dérivées, tels qu’un alignement amélioré ou un système de traduction automatique entraîné, tout en exigeant que de telles œuvres dérivées préservent nos avis de Copyright, de non-responsabilité, de licence ainsi qu’une description des changements apportés. Prière d’inclure les fichiers LICENSE et README accompagnant le corpus avec toute œuvre dérivée créée à partir de ce corpus. You are encouraged to work with this corpus to train machine translation systems or any other NLP technology. Nous vous encourageons à utiliser ce corpus pour créer des systèmes de traduction automatique ou toute autre technologie langagière. You are encouraged to work with this corpus to improve on our alignments: that is why we provide not only the aligned corpus, but also the raw text in one-paragraph-per-line format, and the gold standard evaluation alignments. Nous vous encourageons à améliorer les alignements du corpus : c’est la raison pour laquell CC-BY parallel corpus corpus parallèle machine translation traduction automatique sentence alignment alignement des phrases indigenous languages langues autochtones low-resource languages langues à faibles ressources dataset 2020 ftnrccanadadr https://doi.org/10.4224/40001819 2023-02-26T18:38:10Z The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This dataset is a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language, or an Indigenous language of the Americas, released to date. Accompanying the corpus is a subset of gold standard alignments for alignment evaluation purposes, and scripts to replicate the preprocessing used in our baseline machine translation experiments. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Ce nouvel ensemble de données est un corpus inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. Le corpus est accompagné d'un sous-ensemble d'alignements de référence pouvant servir à l’évaluation de méthodes d’alignement, ainsi que de scripts pour reproduire le prétraitement utilisé dans nos expériences de base de traduction automatique. The alignment of the corpus and the accompanying documentation and scripts were produced by the National Research Council of Canada. L'alignement du corpus et la documentation et les scripts qui l'accompagnent ont été produits par le ... Dataset Arctic inuit Inuit–Yupik inuktitut Northwest Territories Nunavut Territoires du Nord-Ouest Unangan Yupik NRC Digital Repository (National Research Council Canada) Arctic Canada Northwest Territories Nunavut