TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots

International audience Les cachalots (Physeter macrocephalus) sont les plus grands des cétacés à dents. Comme tous les cétacés, ils communiquent notamment par des émissions vocales. Les cachalots produisent des clics au cours de leurs activités vitales et leurs interactions sociales. Certains de ces...

Full description

Bibliographic Details
Main Authors: Coch, Jose, Adam, Olivier
Other Authors: Dassault Systèmes, Institut Jean Le Rond d'Alembert (DALEMBERT), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Servan, Christophe, Vilnat, Anne
Format: Conference Object
Language:French
Published: HAL CCSD 2023
Subjects:
Online Access:https://hal.science/hal-04208589
https://hal.science/hal-04208589/document
https://hal.science/hal-04208589/file/481369.pdf
id ftccsdartic:oai:HAL:hal-04208589v1
record_format openpolar
spelling ftccsdartic:oai:HAL:hal-04208589v1 2023-11-05T03:44:38+01:00 TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots Coch, Jose Adam, Olivier Dassault Systèmes Institut Jean Le Rond d'Alembert (DALEMBERT) Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS) Servan, Christophe Vilnat, Anne Paris, France 2023 https://hal.science/hal-04208589 https://hal.science/hal-04208589/document https://hal.science/hal-04208589/file/481369.pdf fr fre HAL CCSD ATALA hal-04208589 https://hal.science/hal-04208589 https://hal.science/hal-04208589/document https://hal.science/hal-04208589/file/481369.pdf info:eu-repo/semantics/OpenAccess Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets 18e Conférence en Recherche d'Information et Applications, 16e Rencontres Jeunes Chercheurs en RI, 30e Conférence sur le Traitement Automatique des Langues Naturelles, 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues https://hal.science/hal-04208589 18e Conférence en Recherche d'Information et Applications, 16e Rencontres Jeunes Chercheurs en RI, 30e Conférence sur le Traitement Automatique des Langues Naturelles, 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp.23-25 zoolinguistique text mining interdisciplinaire ordre des mots corrélations sémantiques [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] info:eu-repo/semantics/conferenceObject Conference papers 2023 ftccsdartic 2023-10-07T22:30:13Z International audience Les cachalots (Physeter macrocephalus) sont les plus grands des cétacés à dents. Comme tous les cétacés, ils communiquent notamment par des émissions vocales. Les cachalots produisent des clics au cours de leurs activités vitales et leurs interactions sociales. Certains de ces sons sont organisés en séquences temporelles, appelées « codas ». Depuis plus d'une dizaine d'années, des échanges audio ou « conversations » entre cachalots sont enregistrés dans de nombreux endroits dans le monde, par exemple dans l'Océan Pacifique, dans les Caraïbes et dans l'Océan Indien. La particularité des échanges vocaux entre cachalots fait que ces codas sont numérisables relativement facilement. Ainsi, il existe des corpus de transcriptions de conversations en particulier venant des origines géographiques citées. Durant 2022, une collaboration entre le Service NLP de Dassault Systèmes et l'équipe Bioacoustique de Sorbonne Université, basée sur les enregistrements sonores collectés et mis à disposition par Longitude 181 et Label Bleu Production, nous a permis d'initier un projet d'application des techniques de Text Mining et Traitement Automatique du Langage à l'étude du langage des cachalots. Nous avons exposé les premiers résultats du projet dans un article publié dans les Actes de l'atelier TextMine'23 de la conférence EGC'2023 concernant un corpus de cachalots résidents au large de l'Ile Maurice et identifiés individuellement. Nous utilisons dans ce projet le logiciel Proxem Studio, qui a la particularité de pouvoir être appliqué sans modèle de langue préalable car il peut construire des modèles de langue à partir des corpus à analyser. L'objectif du projet couvre les points suivants : - Optimiser et automatiser la transcription en codas des échanges audio entre cachalots, - Analyser les propriétés formelles du langage des cachalots : mettre en évidence que l'ordre entre codas a une importance, et découvrir s‘il est possible de décrire une proto-syntaxe de ce langage, - Mettre au point un référentiel ... Conference Object Physeter macrocephalus Archive ouverte HAL (Hyper Article en Ligne, CCSD - Centre pour la Communication Scientifique Directe)
institution Open Polar
collection Archive ouverte HAL (Hyper Article en Ligne, CCSD - Centre pour la Communication Scientifique Directe)
op_collection_id ftccsdartic
language French
topic zoolinguistique
text
mining
interdisciplinaire
ordre des mots
corrélations sémantiques
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
spellingShingle zoolinguistique
text
mining
interdisciplinaire
ordre des mots
corrélations sémantiques
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Coch, Jose
Adam, Olivier
TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots
topic_facet zoolinguistique
text
mining
interdisciplinaire
ordre des mots
corrélations sémantiques
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
description International audience Les cachalots (Physeter macrocephalus) sont les plus grands des cétacés à dents. Comme tous les cétacés, ils communiquent notamment par des émissions vocales. Les cachalots produisent des clics au cours de leurs activités vitales et leurs interactions sociales. Certains de ces sons sont organisés en séquences temporelles, appelées « codas ». Depuis plus d'une dizaine d'années, des échanges audio ou « conversations » entre cachalots sont enregistrés dans de nombreux endroits dans le monde, par exemple dans l'Océan Pacifique, dans les Caraïbes et dans l'Océan Indien. La particularité des échanges vocaux entre cachalots fait que ces codas sont numérisables relativement facilement. Ainsi, il existe des corpus de transcriptions de conversations en particulier venant des origines géographiques citées. Durant 2022, une collaboration entre le Service NLP de Dassault Systèmes et l'équipe Bioacoustique de Sorbonne Université, basée sur les enregistrements sonores collectés et mis à disposition par Longitude 181 et Label Bleu Production, nous a permis d'initier un projet d'application des techniques de Text Mining et Traitement Automatique du Langage à l'étude du langage des cachalots. Nous avons exposé les premiers résultats du projet dans un article publié dans les Actes de l'atelier TextMine'23 de la conférence EGC'2023 concernant un corpus de cachalots résidents au large de l'Ile Maurice et identifiés individuellement. Nous utilisons dans ce projet le logiciel Proxem Studio, qui a la particularité de pouvoir être appliqué sans modèle de langue préalable car il peut construire des modèles de langue à partir des corpus à analyser. L'objectif du projet couvre les points suivants : - Optimiser et automatiser la transcription en codas des échanges audio entre cachalots, - Analyser les propriétés formelles du langage des cachalots : mettre en évidence que l'ordre entre codas a une importance, et découvrir s‘il est possible de décrire une proto-syntaxe de ce langage, - Mettre au point un référentiel ...
author2 Dassault Systèmes
Institut Jean Le Rond d'Alembert (DALEMBERT)
Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)
Servan, Christophe
Vilnat, Anne
format Conference Object
author Coch, Jose
Adam, Olivier
author_facet Coch, Jose
Adam, Olivier
author_sort Coch, Jose
title TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots
title_short TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots
title_full TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots
title_fullStr TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots
title_full_unstemmed TEMITALC : Text Mining et TAL pour Analyser le Langage des Cachalots
title_sort temitalc : text mining et tal pour analyser le langage des cachalots
publisher HAL CCSD
publishDate 2023
url https://hal.science/hal-04208589
https://hal.science/hal-04208589/document
https://hal.science/hal-04208589/file/481369.pdf
op_coverage Paris, France
genre Physeter macrocephalus
genre_facet Physeter macrocephalus
op_source Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets
18e Conférence en Recherche d'Information et Applications, 16e Rencontres Jeunes Chercheurs en RI, 30e Conférence sur le Traitement Automatique des Langues Naturelles, 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues
https://hal.science/hal-04208589
18e Conférence en Recherche d'Information et Applications, 16e Rencontres Jeunes Chercheurs en RI, 30e Conférence sur le Traitement Automatique des Langues Naturelles, 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp.23-25
op_relation hal-04208589
https://hal.science/hal-04208589
https://hal.science/hal-04208589/document
https://hal.science/hal-04208589/file/481369.pdf
op_rights info:eu-repo/semantics/OpenAccess
_version_ 1781705039650226176