要旨: 大規模言語モデル(LLM)は強力な多言語能力を示す一方で、意図した言語で一貫して応答を生成できないことが多く、これは言語の混乱と呼ばれる現象として現れます。DPO、ORPO、GRPO といったシーケンスレベルでの微調整に基づく従来の対策手法は、応答全体のレベルで動作するため、意図しない形で汎用モデル能力の低下につながり得ることがあり、よりきめ細かな代替手法の必要性が動機づけられます。そこで本研究では、言語の混乱を局所的なトークン単位の更新によって抑制するための微調整フレームワークである Token-Level Policy Optimization(TLPO)を提案します。TLPO は誤りが起きやすい位置を特定し、代替の候補トークンを探索したうえで、誤りを誘発する出力をきめ細かい粒度で抑制するように調整した目的関数を用いて方策を更新します。この選択的な介入により、モデルの汎用能力を損なうことなく、言語の混乱を効果的に緩和できます。多様な言語にわたる複数の多言語 LLM に対する実験では、TLPO が、下流タスクの精度を維持しつつ言語の一貫性を改善する点で、ベースラインを大きく上回ることが示されました。
TLPO:大規模言語モデルの言語の混乱を抑えるためのトークン単位ポリシー最適化
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチリンガルな大規模言語モデル(LLM)が意図した言語で一貫して応答を生成できずに起こる「言語の混乱」を扱う。
- DPO、ORPO、GRPOのような従来のシーケンス(応答全体)単位の微調整は、応答全体を最適化するため汎用能力を損なう可能性があり、その限界があると指摘する。
- そこで著者らは、誤りが起きやすい位置に対して局所的な更新を行うトークン単位の微調整フレームワーク「Token-Level Policy Optimization(TLPO)」を提案する。
- TLPOは候補トークンを探索し、言語の混乱を誘発する出力を粒度高く抑制するための専用目的関数を用いて、全体の精度を維持する。
- 複数のマルチリンガルLLMと多様な言語での実験により、TLPOはベースラインよりも言語一貫性を大きく改善しつつ、下流タスク精度を損なわないことが示される。



