言語モデルにおける音韻知識の表現をトークナイズが制限する理由と、それを改善する方法

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、音の情報を考慮しないトークナイズという第一工程が、言語モデルの音韻知識の表現能力にどう影響するかを調査しています。
  • 検証実験により、サブワード型トークナイズは、韻(ライム)などの局所的な音韻特徴と、音節化などの大域的な音韻特徴の両方のエンコードを体系的に弱めることが示されました。
  • 音節境界とトークン境界のズレを測る「syllabification-tokenization alignment distance(STAD)」を提案し、このズレが大きいほど音韻表現が弱くなることを明らかにしています。
  • 課題への対処としてIPAベースの軽量ファインチューニングを提案し、音韻関連タスク3種で一貫した改善を得つつ、数学と一般推論能力は大きく損なわない(GSM8Kで1.1%、MMLUで0.9%の低下)ことを報告しています。

Abstract

トークン化はあらゆる言語モデル(LM)の最初のステップですが、語の音(発音)を考慮することはありません。本研究では、トークン化がテキストのみのLMが音韻(フォノロジー)の知識を表現する能力にどのように影響するかを調査します。一連のプロービング実験を通じて、サブワードに基づくトークン化が、局所的(例:韻)および大域的(例:音節化)な音韻的特徴の双方の符号化を体系的に弱めることを示します。この効果を定量化するために、モデルのトークン化と、単語の自然な音節境界との間の不一致を測る指標である、音節化-トークン化アライメント距離(STAD)を導入し、ミスアライメントが高いほど音韻表現が劣ることと相関することを見いだしました。これにより、音韻に配慮したトークン化のための単純な診断手法を提供します。これらの制限に対処するため、軽量なIPAベースのファインチューニング手法を提案します。この手法は、音韻的な気づきをLMに注入し、音韻に関連する3つのタスクすべてで一貫した改善をもたらしつつ、数学および一般的な推論能力は概ね維持します。具体的には、GSM8KとMMLUでそれぞれ1.1%および0.9%の低下にとどまります。