AgentV-RL:エージェンティック・ベリファイアによる報酬モデリングのスケーリング
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、「Agentic Verifier」を提案し、テスト時スケーリングの検証器だけに依存するのではなく、複数ターンでツールを活用する熟考プロセスとして報酬モデリングを行うことで改善を目指します。
- 前向きエージェントと後ろ向きエージェントの補完的な仕組みにより、前提から結論へ推論を追跡したうえで、結論を前提に照らして再チェックし、途中の誤りによるもっともらしい解への誤検出(偽陽性)を減らそうとします。
- 計算や知識集約的な領域で検証の信頼性が下がる問題に対し、ツール利用による外部的な根拠付けを組み込んで対処します。
- 実運用を見据えて「AgentV-RL」も提示し、先行的な探索と強化学習により、検証器がツール利用と内部推論を自律的に切り替えながら行えるようにします。
- 実験では、並列および逐次のテスト時スケーリングの両方で一貫した改善が示され、4Bバリアントが最先端ORMを25.2%上回ったことから、エージェンティックな報酬モデリングの有望な方向性が示唆されます。



