要旨: 大規模言語モデル(LLMs)は強力な推論能力を示すが、通常は高い性能を達成するために高価なポストトレーニングを必要とする。最近のテスト時アラインメント手法は軽量な代替手段を提供するが、主に嗜好整合のために推論よりも研究されてきた。このギャップを埋めるために、トークンレベル適応ルーティング(TARo)を提案する。これは凍結されたLLMsを推論時のみで構造化推論へと導く。具体的には、まずステップごとの数学的トレースに基づいて報酬モデルを訓練し、細粒度の論理的一貫性信号を捉え、次に報酬モデルの基モデルへの導きを自動的に制御する学習可能なトークンレベルのルータを導入する。広範な実験により、TARoはベースモデルに対して最大+22.4%の推論性能を改善し、既存のトークンレベルのテスト時アラインメント手法より最大+8.4%改善することを示すとともに、分布外の臨床推論(MedXpertQA)および指示の遵守(AlpacaEval)も向上させる。さらに、TARoは再訓練なしで小さなバックボーンから大きなバックボーンへ一般化し、テスト時アラインメントを嗜好最適化から堅牢でクロスドメインな推論へと拡張する。
TARo: 大規模言語モデルのテスト時整合性のためのトークンレベル適応ルーティング
arXiv cs.CL / 2026/3/20
📰 ニュースModels & Research
要点
- TARo は、推論時にのみ動作するトークンレベルの適応ルータを導入し、ステップごとの数学的トレースで訓練された報酬モデルを導くことによって、凍結された LLM を構造化推論へと導きます。
- 本手法は、微細な論理的一貫性の信号を捉える報酬モデルを訓練し、学習可能なトークンレベルのルータを用いて報酬モデルが基盤モデルをどのように導くかを制御します。
- 実験の結果、TARo は基盤モデルと比較して推論能力を最大で 22.4% 向上させ、既存のトークンレベルのテスト時整合手法と比べても 8.4% の改善を示し、再訓練なしで小規模から大規模なバックボーンへ一般化します。
- TARo は、分布外の臨床推論(MedXpertQA)と指示遂行(AlpacaEval)を強化し、テスト時整合をプリファレンス最適化から堅牢で横断的な推論へと拡張します。



