概要: ビジョン-言語プロセス報酬モデル(VL-PRMs)は、推論の中間ステップを評価し、テスト時のスケーリングの下で候補を再ランク付けするために、ますます用いられている。 しかし、それらはしばしばブラックボックスの評価者として機能します:低いステップスコアは実際の推論ミスを反映している場合もあれば、単に検証者の画像の誤認である場合もあります。この知覚と推論の絡み合いは、体系的な偽陽性(幻視的な視覚前提を報酬すること)と偽陰性(正しく根拠づけられた表現を罰すること)を招き、再ランク付けとエラー局在の両方を損なう。私たちは Explicit Visual Premise Verification(EVPV)を導入します。これは、あるステップが依存する視覚的前提の信頼性に基づいてステップのスコアリングを条件付けする、軽量な検証インターフェースです。方針は、必要な視覚事実を明示化する段階的な視覚チェックリストを作成するよう促され、一方、制約抽出器は入力画像から独立して構造化された視覚制約を導出します。EVPV はチェックリストの主張をこれらの制約と照合して視覚信頼性のスカラー信号を算出し、信頼性ゲーティングを介してPRM のステップ報酬を調整します。視覚的に依存するステップの報酬は信頼性が低い場合に低下させ、信頼性が高い場合には維持されます。これは、各ステップごとのツール呼び出しを行わず、知覚的不確実性を論理的評価から切り離します。VisualProcessBench の実験と 6 つのマルチモーダル推論ベンチマークの実験は、EVPV がステップレベルの検証を改善し、強力なベースラインに対して Best-of-N 再ランキングの精度を一貫して向上させることを示しています。さらに、抽出された制約に制御された改ざんを加えると、性能が単調に劣化し、利得が制約の忠実性と明示的な前提検証に起因するという因果的証拠を提供します。偶発的なプロンプト効果ではありません。コードは以下で入手可能です: https://github.com/Qwen-Applications/EVPV-PRM
スコアの根拠づけ: 信頼性の高い視覚言語処理報酬モデルのための明示的なビジュアル前提検証
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語プロセス報酬モデル(VL-PRMs)が知覚精度と推論を混同しがちであり、ステップのスコアリングに偽陽性・偽陰性を生じさせることを指摘する。
- 本研究は、Explicit Visual Premise Verification(EVPV)を提案する。これは視覚的前提の信頼性に基づいてステップのスコアリングを条件付けする、段階的な視覚チェックリストと独立した制約抽出器を備えた軽量なインターフェースである。
- EVPVは、チェックリストの主張と抽出された視覚制約を比較して、スカラーの視覚信頼性信号を算出し、信頼性ゲーティングを可能にする。これにより、信頼性が低い場合には視覚依存のステップの報酬を低減し、信頼性が高い場合には報酬を維持する。
- 本手法は、各ステップごとのツール呼び出しを必要とせず、知覚的不確実性と論理的評価を分離することで、検証と誤り局在の向上を図る。
- VisualProcessBenchと6つのマルチモーダル推論ベンチマークにおける実証結果は、ステップレベルの検証の改善とBest-of-N再ランキングの向上を示す。制御された制約破損は、制約忠実度からの因果的利得を示し、コードはリンク先リポジトリに公開されている。