Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique

Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle c...

Full description

Bibliographic Details
Main Author:	Trabelsi, Chiheb
Other Authors:	Langlais, Philippe
Format:	Thesis
Language:	French
Published:	2013
Subjects:	Traduction statistique Apprentissage automatique Traitement automatique de la langue Complexité morphologique Génération morphologique Segmentation Statistical machine translation Statistical machine learning Natural language processing Morphological complexity Morphology generation Word segmentation Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) inuktitut
Online Access:	http://hdl.handle.net/1866/8966

id	ftcanadathes:oai:collectionscanada.gc.ca:QMU.1866/8966
record_format	openpolar
institution	Open Polar
collection	Theses Canada/Thèses Canada (Library and Archives Canada)
op_collection_id	ftcanadathes
language	French
topic	Traduction statistique Apprentissage automatique Traitement automatique de la langue Complexité morphologique Génération morphologique Segmentation Statistical machine translation Statistical machine learning Natural language processing Morphological complexity Morphology generation Word segmentation Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
spellingShingle	Traduction statistique Apprentissage automatique Traitement automatique de la langue Complexité morphologique Génération morphologique Segmentation Statistical machine translation Statistical machine learning Natural language processing Morphological complexity Morphology generation Word segmentation Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) Trabelsi, Chiheb Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
topic_facet	Traduction statistique Apprentissage automatique Traitement automatique de la langue Complexité morphologique Génération morphologique Segmentation Statistical machine translation Statistical machine learning Natural language processing Morphological complexity Morphology generation Word segmentation Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
description	Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline). Statistical Machine Translation systems have been designed to translate text from a source language into a target one. In most of the benchmark translation systems, the basic unit considered in the textual analysis is the observed textual form of a word. While such a design provides good performance when it comes to translation between two morphologically poor languages, this is not the case when translating into or from a morphologically rich (or complex) language. The purpose of our work is to develop a Statistical Machine Translation (SMT) system as an alternative solution to the many challenges raised by morphological complexity. Our system has the potentials to capture the morphological diversity and hence, to produce efficient translation from a morphologically poor language to a rich one. Several methods have been designed to accomplish such a task. Pre-processing and Post-processing techniques have been built-in to these methods to allow for morphological information to improve translation quality. In this thesis, we first examine several methods of extending traditional SMT models and assess their power of producing better output by comparing them on English-Inuktitut and English-Finnish translation tasks. In a second step we develop a new morphologically aware segmentation algorithm that takes into account information coming from both languages to segment the morphologically rich language. This is done in order to enhance the quality of alignments and consequently the translation itself. This bilingual segmentation algorithm is then incorporated into the phrase-based translation model “PBM” to form our segmentation-based system. Finally we combine the segmentation-based system thus obtained with post-processing algorithms to procure our complete translation system. Our experiments show that the proposed segmentation-based system slightly outperforms the baseline translation system which doesn’t use any preprocessing techniques. It turns out also that our segmentation approach significantly surpasses the preprocessing baseline techniques used in this thesis.
author2	Langlais, Philippe
format	Thesis
author	Trabelsi, Chiheb
author_facet	Trabelsi, Chiheb
author_sort	Trabelsi, Chiheb
title	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
title_short	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
title_full	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
title_fullStr	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
title_full_unstemmed	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
title_sort	traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
publishDate	2013
url	http://hdl.handle.net/1866/8966
genre	inuktitut
genre_facet	inuktitut
op_relation	http://hdl.handle.net/1866/8966
_version_	1766046594844590080
spelling	ftcanadathes:oai:collectionscanada.gc.ca:QMU.1866/8966 2023-05-15T16:55:36+02:00 Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique Trabelsi, Chiheb Langlais, Philippe 2013-01-25T16:30:21Z http://hdl.handle.net/1866/8966 fr fre http://hdl.handle.net/1866/8966 Traduction statistique Apprentissage automatique Traitement automatique de la langue Complexité morphologique Génération morphologique Segmentation Statistical machine translation Statistical machine learning Natural language processing Morphological complexity Morphology generation Word segmentation Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) Thèse ou Mémoire numérique / Electronic Thesis or Dissertation 2013 ftcanadathes 2013-11-23T23:07:45Z Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline). Statistical Machine Translation systems have been designed to translate text from a source language into a target one. In most of the benchmark translation systems, the basic unit considered in the textual analysis is the observed textual form of a word. While such a design provides good performance when it comes to translation between two morphologically poor languages, this is not the case when translating into or from a morphologically rich (or complex) language. The purpose of our work is to develop a Statistical Machine Translation (SMT) system as an alternative solution to the many challenges raised by morphological complexity. Our system has the potentials to capture the morphological diversity and hence, to produce efficient translation from a morphologically poor language to a rich one. Several methods have been designed to accomplish such a task. Pre-processing and Post-processing techniques have been built-in to these methods to allow for morphological information to improve translation quality. In this thesis, we first examine several methods of extending traditional SMT models and assess their power of producing better output by comparing them on English-Inuktitut and English-Finnish translation tasks. In a second step we develop a new morphologically aware segmentation algorithm that takes into account information coming from both languages to segment the morphologically rich language. This is done in order to enhance the quality of alignments and consequently the translation itself. This bilingual segmentation algorithm is then incorporated into the phrase-based translation model “PBM” to form our segmentation-based system. Finally we combine the segmentation-based system thus obtained with post-processing algorithms to procure our complete translation system. Our experiments show that the proposed segmentation-based system slightly outperforms the baseline translation system which doesn’t use any preprocessing techniques. It turns out also that our segmentation approach significantly surpasses the preprocessing baseline techniques used in this thesis. Thesis inuktitut Theses Canada/Thèses Canada (Library and Archives Canada)

Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique

Similar Items