ReasonXL:パフォーマンスを犠牲にせずLLMの推論言語を切り替える

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は多言語LLMにおける根強いギャップを指摘している。すなわち、英語以外のタスクであっても、モデルが推論トレースを英語で生成してしまい、多言語対応の利用シナリオで不一致が生じるという問題である。
  • ReasonXLは、5つの欧州言語(EN/DE/FR/IT/ES)にまたがる、推論トレースの大規模クロスドメイン並列コーパスを導入する。言語ごとに2M+件のアラインされたサンプルを含み、プロンプト、推論トレース、最終出力が含まれる。
  • ReasonXLを用いて著者らは、SFTの後に、検証可能な報酬を用いたRL(RLVR)を行う二段階パイプラインによって、言語固有の推論を実現できることを示す。さらに、一般常識に対する劣化を最小限に抑えつつ、基準性能を維持、あるいは向上できる。
  • 表現分析では、初期のネットワーク層が「アクティベーションのボトルネック」を形成し、これが言語アイデンティティを因果的に制御していることがわかる。一方で、後段の層は適応に伴う変化の大部分を吸収する。
  • RLVRは、SFTよりも小さなパラメータ更新であっても、ベースモデルからの行動面での乖離をより大きく生み出せることが示されており、ターゲット言語の推論へ向けて表現をリルーティングする、より効率的な方法であることが示唆される。

Abstract

多言語能力の進歩にもかかわらず、ほとんどの大規模言語モデル(LLM)は、学習において、そしてとりわけ推論トレースを生成する段階において英語中心のままです。非英語の問題を与えられた場合でさえ、これらのモデルは主として英語で推論してしまい、非英語の利用シナリオに対して根本的な不一致が生じます。 本研究では、この不一致に直接取り組み、3つの貢献を行います。(i)ReasonXL を導入します。これは、ヨーロッパの5言語(英語、ドイツ語、フランス語、イタリア語、スペイン語)にまたがる領域横断の推論トレースの、初の大規模並列コーパスです。言語ごとに200万以上の整合サンプルを含み、プロンプト、推論トレース、最終出力から成るため、言語固有の推論を直接的に教師ありで学習できます。(ii)ReasonXL を用いて、LLM が所望の目標言語だけで推論できるように適応可能であることを示します。これは、教師あり微調整(SFT)と、検証可能な報酬による強化学習(RLVR)というシンプルな2段階パイプラインで実現します。その結果得られるモデルは、基準モデルと同等、またはそれを上回る性能を示し、一般的な知識の喪失は最小限であり、クロスリンガルな転移も概ね維持されます。(iii)適応に関する包括的な表象(レプレゼンテーション)分析を行い、モデルの深さ方向で明確な機能的な分業があることを見いだします。初期層には、言語同一性を因果的に決定する活性化のボトルネックが含まれていますが、上位層は、適応によって駆動される重みと活性化の変化に集中しています。さらに、RLVR は SFT よりも小さなパラメータ更新で、基盤モデルからの行動の乖離がより大きいことを発見します。これは、重み更新がはるかに小さいにもかかわらず、より効率的な表象の迂回(rerouting)が実現されていることを示唆します。