必要なときだけ理由づける:モデル内部の不確実性による効率的な生成報酬モデリング

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、あらゆる入力に対してChain-of-Thoughtを適用するのではなく、実際に必要なときだけ理由づけを行うことでLLMの推論を改善する生成報酬モデリングの枠組みE-GRMを提案する。
  • E-GRMは、モデルからの並列生成の収束挙動を用いて不確実性を推定し、手作りの不確実性検知やタスク固有のトリガーなしに選択的推論を可能にする。
  • 粗い投票ベースの評価に伴う限界に対処するため、この手法では、ハイブリッドな回帰・ランキング目的で学習された軽量な識別スコアラを追加し、よりきめ細かな報酬評価を実現する。
  • 複数の推論ベンチマークでの実験では、推論コストが大幅に低減されつつ、精度向上も一貫して得られており、モデル内部の不確実性が、効率的な推論を意識した報酬モデリングにおける一般的なシグナルであることを示唆している。

Abstract

生成的リワードモデル(GRM)の最近の進展により、Chain-of-Thought(CoT)プロンプトによってLLMの推論能力を高める可能性が示されています。これらの成果にもかかわらず、既存のGRM実装には2つの重大な制限があります。第一に、CoTプロンプトは入力の本質的な複雑さにかかわらず無差別に適用されます。これにより、迅速に直接推論できるタスクに対して不必要な計算コストが生じます。第二に、既存の手法は主として、CoT出力を評価するための投票ベースのメカニズムに依存しており、推論の質を評価する際の粒度や精度がしばしば不足しています。本論文では、モデル内部の不確実性に基づく効率的な生成的リワードモデリング枠組みであるE-GRMを提案します。E-GRMは、並列に生成されたモデル出力の収束挙動を活用して不確実性を推定し、手作りの特徴量やタスク依存のシグナルに依存することなく、必要な場合に限って選択的にCoT推論を起動します。報酬の忠実度を向上させるために、推論経路をきめ細かく評価する軽量な弁別スコアラを導入し、ハイブリッドな回帰--ランキング目的で訓練します。複数の推論ベンチマークでの実験により、E-GRMは推論コストを大幅に削減しつつ、解答精度を一貫して改善できることが示されました。これにより、モデル内部の不確実性が、効率的な推論を考慮したリワードモデリングのための有効かつ汎用的なシグナルであることが実証されます。