言語モデルのデフラグ:語彙拡張のための解釈可能性ベースのアプローチ

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、非ラテン文字を用いる言語では同じ情報でもLLMが複数倍のトークンを要する「トークン過度フラグメンテーション」を、現行のオープンウェイトLLMで確認・分析する。
  • 追加すべき語彙項目の選定と、それに対応する入出力埋め込みの初期化方法という2点に焦点を当て、解釈可能性ベースの語彙拡張手法を提案する。
  • 頻度ベースの候補選択に依存する従来の考え方を見直し、解釈可能性ベースの手法が性能とトークン効率の両面でより優れたトレードオフを示すと主張する。
  • 非ラテン文字の複数言語において、解釈可能性に基づく埋め込み初期化はベースライン手法より大きな改善(約20ポイント)をもたらすことを報告する。
  • 「サブワード・デトークナイズ(subword detokenization)」という現象の分析を踏まえ、効率の上限をさらに押し上げるFragMendを提案し、強力なベースラインとの比較と設計選択の詳細分析で有効性を検証する。

概要: すべての言語は平等です。しかしトークン化の観点では、ある言語のほうがより平等です。トークンは、現代のLLMへのアクセスにおけるコストとレイテンシを左右する、隠れた通貨です。とはいえ、非ラテン文字のスクリプトで書かれた多くの言語では、為替レートが悪いという問題が観察されます。LLMは、英語で同じ情報を符号化するのに必要なトークン数に比べて、多くの言語では複数倍ものトークンを要します。私たちの分析により、この問題は「トークンの過剰フラグメンテーション」として知られており、現代のオープンウェイトLLMでも持続していることが明らかになりました。標準的な対処法は、ボキャブラリ拡張によって、モデルの語彙に欠けている目標言語の項目を追加することです。本研究では、新しい研究方向性である、解釈可能性に基づくボキャブラリ拡張を包括的に研究し、発展させます。私たちは、ボキャブラリ拡張プロセスにおける2つの中核的な意思決定に焦点を当てます。すなわち、「何の項目を追加すべきか?」そして「それらに対応する入力埋め込みと出力埋め込みをどのように初期化すべきか?」です。まず、追加する候補となる語彙項目を選ぶための、頻度に基づく従来の手法の用法(長らく決着済みとみなされてきた判断)に問いを投げ、解釈可能性に基づく手法が、より優れた性能とトークン効率のトレードオフを提供することを示します。次に、非ラテン文字のスクリプトで書かれた複数の言語に対して、ベースラインの初期化手法と比べて大きな改善(約20ポイント)を得ることにより、解釈可能性に基づく埋め込み初期化の妥当性をさらに強固にします。私たちは、この現象「サブワードのデトークナイズ(subword detokenization)」、すなわちモデルが層をまたぐにつれて、断片化されたサブワードトークンをより大きなサブワードへと段階的に統合していく現象を特定します。この現象の分析に基づき、解釈可能性に基づく拡張の効率の上限をさらに押し上げるためのFragMendを提案します。強力なベースラインとの比較によりFragMendの有効性を検証し、その設計上の選択肢に関する詳細な分析を提示します。