AgentV-RL:エージェンティック・ベリファイアによる報酬モデリングのスケーリング

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、「Agentic Verifier」を提案し、テスト時スケーリングの検証器だけに依存するのではなく、複数ターンでツールを活用する熟考プロセスとして報酬モデリングを行うことで改善を目指します。
  • 前向きエージェントと後ろ向きエージェントの補完的な仕組みにより、前提から結論へ推論を追跡したうえで、結論を前提に照らして再チェックし、途中の誤りによるもっともらしい解への誤検出(偽陽性)を減らそうとします。
  • 計算や知識集約的な領域で検証の信頼性が下がる問題に対し、ツール利用による外部的な根拠付けを組み込んで対処します。
  • 実運用を見据えて「AgentV-RL」も提示し、先行的な探索と強化学習により、検証器がツール利用と内部推論を自律的に切り替えながら行えるようにします。
  • 実験では、並列および逐次のテスト時スケーリングの両方で一貫した改善が示され、4Bバリアントが最先端ORMを25.2%上回ったことから、エージェンティックな報酬モデリングの有望な方向性が示唆されます。

Abstract

検証者(verifier)は、テスト時スケーリング(TTS)によってLLMの推論を強化できることが実証されている。とはいえ、複雑な領域では大きな課題に直面する。誤った中間推論に起因する誤差の伝播は、もっともらしい解に対する誤検知(false positives)につながり得る。一方で、外部の裏付け(grounding)が欠けているため、計算や知識集約型のタスクにおいて検証者の信頼性が損なわれる。これらの課題に対処するため、我々は、報酬モデリングを多ターンのツール拡張型熟慮プロセスへと変換する枠組みであるAgentic Verifierを提案する。補完的なフォワード・エージェントとバックワード・エージェントを導入する。すなわち、前者は前提から結論へ向けて解を追跡し、後者は結論をその基礎となる前提に対して再確認する。この双方向のプロセスにより、解の評価を包括的で、信頼性が高く、かつ解釈可能なものにすることができる。実運用のために、我々はAgentV-RLも提案する。積極的な探索と強化学習を通じて、検証者はツール利用と内部推論を自律的に交互に組み合わせる。大規模な実験により、Agentic Verifierが並列および逐次の両方のTTSにおいて一貫した性能向上をもたらすことが示される。特に、我々の4Bバリアントは最先端のORMを25.2%上回り、エージェント型報酬モデリングの有望なパラダイムとして位置づけられる。