必要なときだけ理由づける:モデル内部の不確実性による効率的な生成報酬モデリング
arXiv cs.CL / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、あらゆる入力に対してChain-of-Thoughtを適用するのではなく、実際に必要なときだけ理由づけを行うことでLLMの推論を改善する生成報酬モデリングの枠組みE-GRMを提案する。
- E-GRMは、モデルからの並列生成の収束挙動を用いて不確実性を推定し、手作りの不確実性検知やタスク固有のトリガーなしに選択的推論を可能にする。
- 粗い投票ベースの評価に伴う限界に対処するため、この手法では、ハイブリッドな回帰・ランキング目的で学習された軽量な識別スコアラを追加し、よりきめ細かな報酬評価を実現する。
- 複数の推論ベンチマークでの実験では、推論コストが大幅に低減されつつ、精度向上も一貫して得られており、モデル内部の不確実性が、効率的な推論を意識した報酬モデリングにおける一般的なシグナルであることを示唆している。




