AI Navigate

境界を越える語素: アラビア語トークナイザーとLLMにおけるルート-パターン形態の評価

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLMおよびトークナイザーがアラビア語の語根-パターン形態素をどのように扱うかを調査し、モデルが真の形態構造を捉えているのか、それとも表面的な記憶に依存しているのかを検証する。
  • 金標準のセグメンテーションと比較して、7つのアラビア語中心および多言語対応のLLMにおける形態忠実性を評価する。
  • 生産的な語根-パターン生成を評価する新しいテストセットを導入し、トークナイザーの形態対応が形態生成にとって必須でも十分条件でもないことを発見した。
  • 本研究の結果は、下流モデルの性能における形態的トークン化の役割に疑問を投げかけ、形態的に豊かな言語におけるトークナイザー設計と評価に示唆を与える。

要旨: 本研究は、巨大言語モデル(LLMs)とそのトークン化方式がアラビア語の語根-パターン形態をどれだけ効果的に表現・生成できるかを調査し、それらが真の形態構造を捉えているのか、それとも表面的な記憶に頼っているのかを検証する。アラビア語の形態体系は、LLMsが複雑で非連結的な形態をどのように扱うか、そしてトークン化の選択がこのプロセスにどのように影響するかを分析するうえで、豊富な検証基盤を提供する。我々の研究は、ゴールド標準のセグメンテーションに対するアラビア語および多言語トークナイザー間の形態忠実性の評価から始まり、新たに開発されたテストセットを用いた語根-パターン生成の生産的なパフォーマンスに関するLLMの性能分析に続く。我々の七つのアラビア語中心および多言語のLLMとそれぞれのトークナイザーにわたる所見は、トークナイザーの形態的整合性が形態生成に必須でも十分でもないことを示しており、下流の性能における形態的トークナイズの役割を疑問視させる。