Description
Summary:The Inuktitut language, a member of the Inuit-Yupik-Unangan language family, is spoken across Arctic Canada and noted for its morphological complexity. It is an official language of two territories, Nunavut and the Northwest Territories, and has recognition in additional regions. This dataset is a newly released sentence-aligned Inuktitut–English corpus based on the proceedings of the Legislative Assembly of Nunavut, covering sessions from April 1999 to June 2017. With approximately 1.3 million aligned sentence pairs, this is, to our knowledge, the largest parallel corpus of a polysynthetic language, or an Indigenous language of the Americas, released to date. Accompanying the corpus is a subset of gold standard alignments for alignment evaluation purposes, and scripts to replicate the preprocessing used in our baseline machine translation experiments. La langue inuktitut, membre de la famille des langues inuit-yupik-unangan, est parlée dans tout l'Arctique canadien et réputée pour sa complexité morphologique. C'est une langue officielle de deux territoires, le Nunavut et les Territoires du Nord-Ouest, et elle est aussi reconnue dans d'autres régions. Ce nouvel ensemble de données est un corpus inuktitut – anglais basé sur les délibérations de l'Assemblée législative du Nunavut, couvrant la période allant d’avril 1999 à juin 2017. Avec environ 1,3 million de paires de phrases alignées, il s'agit, à notre connaissance, du plus grand corpus parallèle d'une langue polysynthétique ou d’une langue autochtone des Amériques publié à ce jour. Le corpus est accompagné d'un sous-ensemble d'alignements de référence pouvant servir à l’évaluation de méthodes d’alignement, ainsi que de scripts pour reproduire le prétraitement utilisé dans nos expériences de base de traduction automatique. The alignment of the corpus and the accompanying documentation and scripts were produced by the National Research Council of Canada. L'alignement du corpus et la documentation et les scripts qui l'accompagnent ont été produits par le ...