要旨: LLMが英語中心のバイアスを低減するにつれ、意外な傾向が現れます。推論タスクにおいて、非英語の応答が英語の応答をときに上回るのです。私たちは、この言語は単なる出力媒体としての役割を果たすのではなく、内部の推論経路を構造的に調整する潜在変数として機能しているのではないか、という仮説を立てました。これを検証するために、私たちはPolyglot Thinking Experiment(多言語思考実験)を行いました。この実験では、モデルに対して、言語制約付きおよび言語非制約の条件の下で、同一の問題を解くようプロンプトを与えました。その結果、非英語の応答はしばしばより高い正確性を達成し、また最良の性能が、言語が非制約のときに頻繁に生じることが分かりました。これは、多言語性がモデルの潜在的な推論空間を広げることを示唆しています。この洞察に基づき、私たちはpolyGRPO(Polyglot Group Relative Policy Optimization)を提案します。polyGRPOは、言語の変化を暗黙の探索シグナルとして扱う強化学習(RL)フレームワークです。言語制約付きおよび非制約の条件のもとで、オンラインで多言語の嗜好データを生成し、回答の正確性と推論構造の両方に関してポリシーを最適化します。chain-of-thought(思考過程)アノテーションなしの多言語数学問題18.1K件のみで学習したpolyGRPOは、基盤モデル(Qwen2.5-7B-Instruct)を4つの英語推論テストセットで絶対精度6.72%向上させ、さらにそれらの多言語ベンチマークでは6.89%向上させます。注目すべきことに、英語の常識推論タスクにおいて基盤LLMを上回る唯一の手法であり(4.9%)、学習は数学データのみであるにもかかわらず、強いタスク横断の汎化が示されています。さらなる分析により、言語を潜在変数として扱うことでモデルの潜在的な推論空間が拡張され、その結果として推論性能において一貫し、汎化可能な改善が得られることが明らかになりました。
推論最適化における潜在変数としての言語
arXiv cs.CL / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMにおける言語は単なる出力の媒体ではなく、内部の推論経路に構造的に影響する潜在変数として機能すると主張している。
- 「Polyglot Thinking Experiment」では同一問題を言語制約あり/なしで解かせたところ、言語を制約しない条件で成績が伸びやすく、非英語の出力が推論精度で優れることが示された。
- polyGRPOという新しいRL最適化手法を提案し、言語の変化を暗黙の探索シグナルとして扱って、オンラインで多言語の嗜好データを生成しつつ答えの正確さと推論構造の両方を最適化する。
- chain-of-thoughtアノテーションなしの18.1K件の多言語数学データだけで学習した結果、Qwen2.5-7B-Instructの推論性能が英語テストセットと多言語ベンチマークの両方で大きく改善した。
- さらに、数学データのみで学習したにもかかわらず英語コモンサンス推論タスクでベースLLMを上回ったとされ、潜在推論空間の拡張がもたらすクロスタスク汎化の強さが示唆されている。



