音韻の化石：スラウェシの基礎語彙における主流でない語彙の機械学習による検出

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、6つのスラウェシのオーストロネシア諸語における「非適合的な」基礎語彙が、オーストロネシア以前の基層（基層言語）を反映しているのか、それとも独立した革新によるものなのかを、計算的に検証することを目的とする。
ルールベースの同源語からの控除（cognate subtraction）と、26の音韻的特徴に基づくXGBoost分類器を組み合わせ、継承された形と主流でない形を分離するAUC=0.763を達成する。
機械学習モデルは、主流でない候補に対して音韻的な「指紋」を見出し、具体的にはより長い語形、子音連続（クラスター）の増加、声門閉鎖（glottal stop）率の高さ、そしてオーストロネシア語の接頭辞の少なさが含まれる。
手法間の一致により、信頼度の高い主流でない候補が266件得られ（Cohen’s kappa=0.61）、一方でクラスタリングではまとまりのある語族は見られず、単一の共有された基層層を支持する統計的根拠も得られない。
このアプローチをさらに16言語に適用したところ、地理的なパターンが示され、スラウェシでは主流でない率の予測値が高く（平均P_sub=0.606）、インドネシア西部の言語では低い（0.393）。これは、単一の基層言語ではなく地域内の混合を支持する。