SIEVES:視覚的根拠スコアリングを通じて選択的予測が汎化する
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、局所的な視覚的根拠のスコアリングを用いて、マルチモーダル大規模言語モデルのOOD(分布外)な視覚言語環境における信頼性を高める選択的予測手法SIEVESを提案している。
- SIEVESは、いわゆる「reasoner」モデルに対して回答時に局所化された視覚的根拠を生成させ、さらにセレクタがその局所化の品質を推定するように学習させることで、リスクがユーザー指定の許容値を超えそうな入力では回答を棄却(abstain)できるようにする。
- 実験の結果、V* Bench、HR-Bench-8k、MME-RealWorld-Lite、VizWiz、AdVQAの複数の難しいOODベンチマークで、非グラウンディング基準と比べてカバレッジが最大3倍向上することが示されている。
- セレクタ設計により、o3やGemini-3-Proのようなプロプライエタリなreasonerに対しても、内部の重みやログitにアクセスせずに転移でき、精度だけでは説明できない形でカバレッジ改善が得られる。
- さらに、ベンチマーク特化やreasoner特化の訓練・適応を行わずに、テストした5つのOODデータセットおよびreasonerモデル全体でSIEVESが汎化することが報告されている。



