TRACES:推論ステップにタグ付けして、適応的かつコスト効率の高い早期停止を実現

arXiv cs.CL / 2026/4/24

📰 ニュースModels & Research

要点

  • この論文では、言語推論モデル(LRM)の推論ステップを推論中にリアルタイムでタグ付けする軽量フレームワークTRACESを提案し、適応的でコスト効率のよい早期停止を可能にします。
  • どの種類の推論ステップがどのように振る舞うか(特に正解を出した後)を観測することで、モデルが生成を止めてもよいタイミングの解釈可能な指標を見いだします。
  • 正解を生成するとLRMの推論行動が変化しやすいことを示し、不要な検証や熟考の生成を減らせる可能性を示唆します。
  • MATH500、GSM8K、AIME、および知識・推論ベンチマークのMMLU、GPQAで評価し、標準の生成と同等に近い精度を保ちながら20〜50%のトークン削減を達成します。
  • 本手法は、検証・熟考のステップを過剰に生成することによる非効率性という課題に対し、ステップ種別と正解への寄与の観点から取り組みます。

要旨: 言語推論モデル(LRM)の分野は、過去数年で非常に活発であり、訓練および推論の手法の進歩によって、LRMはより長く、より正確に推論できるようになってきました。しかし、研究の蓄積は増えつつあるにもかかわらず、LRMは依然として非効率であり、検証および省察のステップを過剰に生成してしまうことが示されています。さらに、各推論ステップが担う高レベルの役割や、異なるステップの種類が正しい回答の生成にどのように寄与するかについては、ほとんど解明されていません。この課題に対処するために、本研究ではTRACES(Reasoning stepsをタグ付けし、適応的でコスト効率のよい早期停止を可能にする)を提案します。これは軽量なフレームワークで、推論ステップをリアルタイムにタグ付けし、大規模言語モデルの推論に対して、適応的でコスト効率のよい早期停止を可能にします。このフレームワークに基づいて、推論中の推論行動をモニタし、LRMが正しい答えに到達した後に推論行動を切り替える傾向があることを見出します。特定の種類のステップをモニタすることが、有効で解釈可能な早期停止基準を生み出せることを示します。TRACESフレームワークを、3つの数学推論ベンチマーク、すなわちMATH500、GSM8K、AIMEと、知識および推論ベンチマークであるMMLUおよびGPQAの2つで評価します。標準的な生成と同等の精度を維持しながら、20〜50%のトークン削減を達成します。