ReasonXL:パフォーマンスを犠牲にせずLLMの推論言語を切り替える
arXiv cs.CL / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は多言語LLMにおける根強いギャップを指摘している。すなわち、英語以外のタスクであっても、モデルが推論トレースを英語で生成してしまい、多言語対応の利用シナリオで不一致が生じるという問題である。
- ReasonXLは、5つの欧州言語(EN/DE/FR/IT/ES)にまたがる、推論トレースの大規模クロスドメイン並列コーパスを導入する。言語ごとに2M+件のアラインされたサンプルを含み、プロンプト、推論トレース、最終出力が含まれる。
- ReasonXLを用いて著者らは、SFTの後に、検証可能な報酬を用いたRL(RLVR)を行う二段階パイプラインによって、言語固有の推論を実現できることを示す。さらに、一般常識に対する劣化を最小限に抑えつつ、基準性能を維持、あるいは向上できる。
- 表現分析では、初期のネットワーク層が「アクティベーションのボトルネック」を形成し、これが言語アイデンティティを因果的に制御していることがわかる。一方で、後段の層は適応に伴う変化の大部分を吸収する。
- RLVRは、SFTよりも小さなパラメータ更新であっても、ベースモデルからの行動面での乖離をより大きく生み出せることが示されており、ターゲット言語の推論へ向けて表現をリルーティングする、より効率的な方法であることが示唆される。
