膠着型言語における複雑さのトレードオフ

会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター 形態と統語との関係において, 格標識が豊かであればあるほど語順の自由度が上がる (complexity trade-off) (Sapir 1921, Jakobson 1936, MacFadden 2003, Sinnemäki 2014, Yan and Li 2021, 李, 劉と熊 2022)。本研究は数理言語学の手法を用いて, 70か国の言語を横断的に、格標識の豊かさ, 語順の自由度, そして両者の相関関係を分析する。形態的豊富さ...

Full description

Bibliographic Details
Main Authors: 李, 文超, Li, Wenchao
Format: Other/Unknown Material
Language:Japanese
Published: 国立国語研究所 2023
Subjects:
Online Access:https://repository.ninjal.ac.jp/record/2000127/files/LRW2023_18-o10.pdf
id ftninstjall:oai:repository.ninjal.ac.jp:02000127
record_format openpolar
spelling ftninstjall:oai:repository.ninjal.ac.jp:02000127 2023-12-24T10:24:40+01:00 膠着型言語における複雑さのトレードオフ Complexity trade-off in agglutinative languages 李, 文超 Li, Wenchao 2023 application/pdf https://repository.ninjal.ac.jp/record/2000127/files/LRW2023_18-o10.pdf jpn jpn 国立国語研究所 言語資源ワークショップ2023 https://clrd.ninjal.ac.jp/lrw2023.html 言語資源ワークショップ発表論文集 1 193 205 Proceedings of Language Resources Workshop https://repository.ninjal.ac.jp/record/2000127/files/LRW2023_18-o10.pdf VoR 2023 ftninstjall 2023-11-25T21:12:40Z 会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター 形態と統語との関係において, 格標識が豊かであればあるほど語順の自由度が上がる (complexity trade-off) (Sapir 1921, Jakobson 1936, MacFadden 2003, Sinnemäki 2014, Yan and Li 2021, 李, 劉と熊 2022)。本研究は数理言語学の手法を用いて, 70か国の言語を横断的に、格標識の豊かさ, 語順の自由度, そして両者の相関関係を分析する。形態的豊富さを測定するにPython自然言語処理ツールキットであるStanzaとspaCy-Thaiを使用し、moving-average morphological richnessとmoving-average mean size of paradigm両指標を使った。各国語順の自由度の測定に、Pythonの言語処理ツール「GiNZA」を使い、Cosine similarityとword order entropy両指標を使用した。次の2点にたどりついた。第1に, 膠着型、孤立型、抱入型と屈折型の言語データに基づいた形態的豊富さと語順の自由度の度合いが正の相関関係にある。第2に, 決定木分析に導かれた70か国の言語の区画にI類、II類とIII類とに分かれ, オーストロネシア語族、アルタイ語族、日本語、韓国語、東部ウラル諸語とインド・ヨーロッパ語族、ニジェール・コンゴ語族(ナイジェリアのイボ語; ベナンのフォン語)とアフロ・アジア語族(アラビア語)に三分的偏在する。 application/pdf 浙江大学 Zhejiang University This study utilized 25 treebanks of 16 agglutinative languages spanning nine language families to investigate the correlation between morphological richness and word order flexibility. Morphological richness was measured at moving average morphological richness and moving average size of paradigms. Ordering flexibility was measured via cosine similarity and entropy. Statistical analysis revealed a significant positive correlation between morphological richness and word order flexibility, supporting the complexity trade-off hypothesis. Among the nine language families, it was found that Austronesian, Afro-Asiatic, and Dravidian languages exhibited lower diversity in both morphology and word order compared to Altaic, Indo-Aryan, and Uralic languages. Turkish, Uighur, Basque, and Northern Sami demonstrated the most balanced proportions of S, V, and O combinations. Within the same language family, a separation of morphology and word order was observed: the Finnic branch of the Uralic family displayed greater flexibility than the Finno-Ugric branch, and the Mongolic branch of the Altaic family exhibited stricter ordering compared to the Turkic branch. Further, by investigating the impact of language distance between L1 and L3 on language ... Other/Unknown Material sami Academic Repository of the National Institute for Japanese Language and Linguistics
institution Open Polar
collection Academic Repository of the National Institute for Japanese Language and Linguistics
op_collection_id ftninstjall
language Japanese
description 会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター 形態と統語との関係において, 格標識が豊かであればあるほど語順の自由度が上がる (complexity trade-off) (Sapir 1921, Jakobson 1936, MacFadden 2003, Sinnemäki 2014, Yan and Li 2021, 李, 劉と熊 2022)。本研究は数理言語学の手法を用いて, 70か国の言語を横断的に、格標識の豊かさ, 語順の自由度, そして両者の相関関係を分析する。形態的豊富さを測定するにPython自然言語処理ツールキットであるStanzaとspaCy-Thaiを使用し、moving-average morphological richnessとmoving-average mean size of paradigm両指標を使った。各国語順の自由度の測定に、Pythonの言語処理ツール「GiNZA」を使い、Cosine similarityとword order entropy両指標を使用した。次の2点にたどりついた。第1に, 膠着型、孤立型、抱入型と屈折型の言語データに基づいた形態的豊富さと語順の自由度の度合いが正の相関関係にある。第2に, 決定木分析に導かれた70か国の言語の区画にI類、II類とIII類とに分かれ, オーストロネシア語族、アルタイ語族、日本語、韓国語、東部ウラル諸語とインド・ヨーロッパ語族、ニジェール・コンゴ語族(ナイジェリアのイボ語; ベナンのフォン語)とアフロ・アジア語族(アラビア語)に三分的偏在する。 application/pdf 浙江大学 Zhejiang University This study utilized 25 treebanks of 16 agglutinative languages spanning nine language families to investigate the correlation between morphological richness and word order flexibility. Morphological richness was measured at moving average morphological richness and moving average size of paradigms. Ordering flexibility was measured via cosine similarity and entropy. Statistical analysis revealed a significant positive correlation between morphological richness and word order flexibility, supporting the complexity trade-off hypothesis. Among the nine language families, it was found that Austronesian, Afro-Asiatic, and Dravidian languages exhibited lower diversity in both morphology and word order compared to Altaic, Indo-Aryan, and Uralic languages. Turkish, Uighur, Basque, and Northern Sami demonstrated the most balanced proportions of S, V, and O combinations. Within the same language family, a separation of morphology and word order was observed: the Finnic branch of the Uralic family displayed greater flexibility than the Finno-Ugric branch, and the Mongolic branch of the Altaic family exhibited stricter ordering compared to the Turkic branch. Further, by investigating the impact of language distance between L1 and L3 on language ...
format Other/Unknown Material
author 李, 文超
Li, Wenchao
spellingShingle 李, 文超
Li, Wenchao
膠着型言語における複雑さのトレードオフ
author_facet 李, 文超
Li, Wenchao
author_sort 李, 文超
title 膠着型言語における複雑さのトレードオフ
title_short 膠着型言語における複雑さのトレードオフ
title_full 膠着型言語における複雑さのトレードオフ
title_fullStr 膠着型言語における複雑さのトレードオフ
title_full_unstemmed 膠着型言語における複雑さのトレードオフ
title_sort 膠着型言語における複雑さのトレードオフ
publisher 国立国語研究所
publishDate 2023
url https://repository.ninjal.ac.jp/record/2000127/files/LRW2023_18-o10.pdf
genre sami
genre_facet sami
op_relation 言語資源ワークショップ2023
https://clrd.ninjal.ac.jp/lrw2023.html
言語資源ワークショップ発表論文集
1
193
205
Proceedings of Language Resources Workshop
https://repository.ninjal.ac.jp/record/2000127/files/LRW2023_18-o10.pdf
_version_ 1786199722302636032