優れた多言語推論とは何か?測定可能な特徴で推論トレースをほどく
arXiv cs.CL / 2026/4/7
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多言語での推論品質は、単に他の言語での推論を英語のそれに見せかけることによって決まるのではなく、正確さを予測するのはどの測定可能な特性なのかを調査することを主張する。
- 多言語における推論トレースのうち、多言語アラインメント、推論ステップ、推論の流れをカバーする一連の測定可能な特徴を導入し、ロジスティック回帰によってそれらと最終回答の正確さとの関係を定量化する。
- 多言語トレースに対してスパースオートエンコーダを学習することで、著者らは、提案された特徴を支える、あるいはそれを拡張する潜在的な推論概念を発見する。
- 2つの数学的推論ベンチマーク、4つの大規模推論モデル、10言語にまたがる実験により、多くの特徴は全体として正確さと正の相関を示す一方で、これらの関連の強さ、さらにはその方向でさえも、言語によって大きく変わり得ることが示される。
- これらの結果は、英語中心の報酬/最適化設計に挑戦するものであり、多言語ベンチマーク設計や報酬設計において、言語に適応した目的関数が必要であることを示唆する。


