現代データからバントゥ諸語の歴史的語彙構造をニューラルに回復する試み

arXiv cs.LG / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、現代のバントゥ語の形態データだけで学習したニューラルモデルが、歴史的再構に整合する共言語的な語彙構造を回復できるかを検証しています。
  • BantuMorph v7を用いて14の東部・南部バントゥ諸語を解析し、レマ埋め込みから、少なくとも5言語以上で共有される728の名詞候補と1,525の動詞候補を同定しました。
  • 歴史的リソース(BLR3の原バントゥ再構形とASJP)で評価した結果、上位11の名詞候補のうち10が既知の原バントゥ形に高い精度で一致し、動詞についても12の語根候補が整合しました。
  • NLLB-600Mによるクロスモデル検証により、両モデルがゴスリー管区(Guthrie-zone)の分類と整合する、同族語クラスターや系統的グルーピングを回復することが裏づけられています。
  • 共言語的な名詞クラス分析では、対象とした全ての生産的クラスで言語間の埋め込み類似度が高く、安定した語彙・形態の共有構造をモデルが捉えていることが示唆されます。

要旨: 我々は、現代の形態論データのみに基づいて訓練されたニューラルモデルが、歴史的な再構から整合的に導かれる語彙の対照(クロスリンガル)構造を回復できるかどうかを調査する。バントゥ形態論パラダイム上のトランスフォーマーであるBantuMorph v7を用いて、14の東部および南部バントゥ諸語を解析し、その名詞および動詞の語彙(レマ)についてエンコーダ埋め込みを抽出し、5言語以上に共有される728の名詞および1,525の動詞の同源語候補を同定する。これらの候補を、確立された歴史的資源であるバントゥ語彙再構データベース(BLR3;再構された原バントゥ形4,786)およびASJPの基礎語彙と照合して評価した結果、上位11の名詞候補のうち10(90.9%)が、既に再構された原バントゥ形と一致することを確認する。これには、*-ntU「人」(8言語)、*gombe「牛」(9言語)、および*mUn(9言語)が含まれる。動詞へ拡張すると、12の動詞同源語が再構された原バントゥ語根と一致し、*-bon-「見る」および*-jIm-「立つ」を含み、いずれも広い地理的範囲で複数言語にわたって確認される。独立した翻訳モデル(NLLB-600M)によるクロスモデル検証によって、これらのパターンが裏付けられる。すなわち、両モデルとも同源語クラスタと、確立されたグトリー・ゾーン分類と整合的な系統的グルーピングを回復する(p < 0.01)。言語横断の名詞クラス分析では、13の生産的(productive)クラスすべてが、言語間で0.83を超えるコサイン類似度を維持していることが示される(クラス内 > クラス間、p < 10^-9)。本データセットは東部および南部バントゥに限定されているため、我々はこれらの結果を、原バントゥの保持(retentions)と後続の地域的な革新とを決定的に区別するというよりも、原バントゥに整合的な共有バントゥ語彙構造の回復として解釈する。