優れた多言語推論とは何か?測定可能な特徴で推論トレースをほどく

arXiv cs.CL / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語での推論品質は、単に他の言語での推論を英語のそれに見せかけることによって決まるのではなく、正確さを予測するのはどの測定可能な特性なのかを調査することを主張する。
  • 多言語における推論トレースのうち、多言語アラインメント、推論ステップ、推論の流れをカバーする一連の測定可能な特徴を導入し、ロジスティック回帰によってそれらと最終回答の正確さとの関係を定量化する。
  • 多言語トレースに対してスパースオートエンコーダを学習することで、著者らは、提案された特徴を支える、あるいはそれを拡張する潜在的な推論概念を発見する。
  • 2つの数学的推論ベンチマーク、4つの大規模推論モデル、10言語にまたがる実験により、多くの特徴は全体として正確さと正の相関を示す一方で、これらの関連の強さ、さらにはその方向でさえも、言語によって大きく変わり得ることが示される。
  • これらの結果は、英語中心の報酬/最適化設計に挑戦するものであり、多言語ベンチマーク設計や報酬設計において、言語に適応した目的関数が必要であることを示唆する。

Abstract

大規模推論モデル(LRMs)は、英語とその他の言語の間に大きな性能ギャップが依然として存在しますが、現状の多くの研究は、そのギャップを、あらゆる言語での推論を英語の推論に似せるだけで簡単に埋められると仮定しています。本研究はこの仮定に異議を唱え、代わりに次の問いを立てます。すなわち、多言語環境における有効な推論を実際に特徴づけているのは何か、そして英語由来の推論特徴は他の言語に対してどの程度本当に役立つのか、です。まず、推論トレースの多言語アラインメント、推論ステップ、推論フローといった側面にまたがる、測定可能な推論特徴群を定義し、ロジスティック回帰を用いて各特徴が最終回答の正確さとどのように関連するかを定量化します。さらに、多言語トレース上でスパース自己符号化器(autoencoder)を訓練し、これらの特徴を具体化、または拡張する潜在的な推論概念を自動的に発見します。最後に、これらの特徴をテスト時の選択ポリシーとして用い、より強力な多言語推論へモデルを誘導できるかどうかを検証します。2つの数学的推論ベンチマーク、4つのLRM、10言語にわたって、ほとんどの特徴が正の関連を持つことを見いだしますが、その関連の強さは言語ごとにかなり異なり、場合によっては逆転さえ起こり得ます。本研究の結果は、英語中心の報酬設計に挑み、多言語固有の推論パターンを受け入れる適応的な目的関数へと導くものであり、多言語ベンチマークおよび報酬設計に対して具体的な示唆を与えます。