膠着型言語における複雑さのトレードオフ

会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター 形態と統語との関係において, 格標識が豊かであればあるほど語順の自由度が上がる (complexity trade-off) (Sapir 1921, Jakobson 1936, MacFadden 2003, Sinnemäki 2014, Yan and Li 2021, 李, 劉と熊 2022)。本研究は数理言語学の手法を用いて, 70か国の言語を横断的に、格標識の豊かさ, 語順の自由度, そして両者の相関関係を分析する。形態的豊富さ...

Full description

Bibliographic Details
Main Authors: 李, 文超, Li, Wenchao
Format: Other/Unknown Material
Language:Japanese
Published: 国立国語研究所 2023
Subjects:
Online Access:https://repository.ninjal.ac.jp/record/2000127/files/LRW2023_18-o10.pdf
Description
Summary:会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター 形態と統語との関係において, 格標識が豊かであればあるほど語順の自由度が上がる (complexity trade-off) (Sapir 1921, Jakobson 1936, MacFadden 2003, Sinnemäki 2014, Yan and Li 2021, 李, 劉と熊 2022)。本研究は数理言語学の手法を用いて, 70か国の言語を横断的に、格標識の豊かさ, 語順の自由度, そして両者の相関関係を分析する。形態的豊富さを測定するにPython自然言語処理ツールキットであるStanzaとspaCy-Thaiを使用し、moving-average morphological richnessとmoving-average mean size of paradigm両指標を使った。各国語順の自由度の測定に、Pythonの言語処理ツール「GiNZA」を使い、Cosine similarityとword order entropy両指標を使用した。次の2点にたどりついた。第1に, 膠着型、孤立型、抱入型と屈折型の言語データに基づいた形態的豊富さと語順の自由度の度合いが正の相関関係にある。第2に, 決定木分析に導かれた70か国の言語の区画にI類、II類とIII類とに分かれ, オーストロネシア語族、アルタイ語族、日本語、韓国語、東部ウラル諸語とインド・ヨーロッパ語族、ニジェール・コンゴ語族(ナイジェリアのイボ語; ベナンのフォン語)とアフロ・アジア語族(アラビア語)に三分的偏在する。 application/pdf 浙江大学 Zhejiang University This study utilized 25 treebanks of 16 agglutinative languages spanning nine language families to investigate the correlation between morphological richness and word order flexibility. Morphological richness was measured at moving average morphological richness and moving average size of paradigms. Ordering flexibility was measured via cosine similarity and entropy. Statistical analysis revealed a significant positive correlation between morphological richness and word order flexibility, supporting the complexity trade-off hypothesis. Among the nine language families, it was found that Austronesian, Afro-Asiatic, and Dravidian languages exhibited lower diversity in both morphology and word order compared to Altaic, Indo-Aryan, and Uralic languages. Turkish, Uighur, Basque, and Northern Sami demonstrated the most balanced proportions of S, V, and O combinations. Within the same language family, a separation of morphology and word order was observed: the Finnic branch of the Uralic family displayed greater flexibility than the Finno-Ugric branch, and the Mongolic branch of the Altaic family exhibited stricter ordering compared to the Turkic branch. Further, by investigating the impact of language distance between L1 and L3 on language ...