均衡思考による効率的推論

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、過剰思考と過少思考を大規模推論モデルのボトルネックとして特定し、資源制約下での効率と精度を制限している。
本研究は、トレーニングを必要としないフレームワークで、確信度ダイナミクスを用いて問題のある推論を検出し、推論モードのプロトタイプからステアリングベクトルを構築して進行を導く。
動的制御関数がステアリングベクトルをリアルタイムで調整し、過剰思考時には冗長な手順を削減し、過少思考時には探索を促進してロバスト性を高める。
広範な実験により、ReBalanceは0.5B〜32Bのパラメータを持つモデルと、数学、一般的な質問応答（QA）、コーディングタスクの9つのベンチマークで機能することが示され、出力の冗長性が低減し、精度が向上する。
この手法はデプロイのためにプラグアンドプレーで利用でき、コードはリンクされたGitHubリポジトリで公開されている。

概要: Large Reasoning Models (LRMs) は顕著な推論能力を示してきましたが、しばしば過剰に考えすぎて単純な問題に冗長な計算ステップを費やす「過考」や、固有の能力を持ちながら十分な推論経路を探索できない「内省不足」に悩まされます。これらの問題は非効率性と潜在的な不正確さを招き、リソース制約下での実用的な展開を制限します。過考を抑制するための既存の手法、例えば反省的なキーワードを抑制したり推論長を調整したりする方法は、意図せずして内省不足を生じさせ、精度を損なう可能性があります。したがって、訓練不要のフレームワークで、バランスのとれた思考による効率的な推論を実現する ReBalance を提案します。ReBalance は推論ダイナミクスの連続的な指標として信頼度を活用し、信頼度のばらつきが大きい場合に過考を、継続的な過信を通じて内省不足を識別します。小規模データセットから隠れ状態を推論モードのプロトタイプに集約することにより、LRMs の推論軌道を導くステアリングベクトルを計算します。ダイナミック制御関数はこのベクトルの強さと方向をリアルタイムの信頼度に基づいて変調し、過考時には冗長性を削減し、内省不足時には探索を促進します。数学推論、一般的な質問応答、コーディングタスクの9つのベンチマークにまたがり、0.5B から 32B までの4つのモデルで実施した広範な実験は、ReBalance が出力の冗長性を効果的に低減し、精度を向上させることを示しています。訓練不要で汎用的な、プラグアンドプレー戦略として、効率的で堅牢な LRM 展開を提供します。コードは https://github.com/yu-lin-li/ReBalance で入手可能です。