重要なものを学ぶ:解釈可能なビジョン・ランゲージ報酬モデリングのための動的な次元選択と集約

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビジョン・ランゲージ報酬モデリングにおける重要な緊張関係に取り組む。生成型報酬モデルは解釈可能だが遅く、識別型モデルは効率的だが不透明である。
  • 視覚に配慮したゲーティング機構と入力ごとの適応的な重み付けにより、評価を複数のきめ細かい解釈可能な次元へと動的に分解するVL-MDRを提案する。
  • この手法は、幻覚や推論など21の次元にわたって注釈付けされた、321k件のビジョン・ランゲージ嗜好ペアからなる新たに厳選されたデータセットを用い、多次元報酬フレームワークを支える。
  • 実験では、VL-MDRがVL-RewardBenchを含むベンチマークにおいて、既存のオープンソース報酬モデルを上回ることが報告される。
  • 著者らは、VL-MDRで生成された嗜好ペアをDPOアライメントに用いて、視覚的幻覚を減らし、VLMにおける信頼性を向上できることを示す。

Abstract

視覚言語報酬モデリングにはジレンマがあります。生成的アプローチは解釈可能ですが遅く、一方で識別的アプローチは効率的ですが、扱いができない「ブラックボックス」として振る舞います。このギャップを埋めるために、本研究ではVL-MDR(Vision-Language Multi-Dimensional Reward)を提案します。これは評価をきめ細かい、解釈可能な次元へ動的に分解する枠組みです。単一のスカラー出力を行うのではなく、VL-MDRは視覚に配慮したゲーティング機構を用いて、関連する次元を特定し、各入力に応じてそれらを適応的に重み付けします(例:幻覚、推論)。これを支えるために、細粒度の21次元にわたって注釈を付けた321k件の視覚言語嗜好ペアから成るデータセットを構築しました。大規模な実験の結果、VL-MDRはVL-RewardBenchのようなベンチマークで、既存のオープンソース報酬モデルに対して一貫して優れた性能を示すことが分かりました。さらに、VL-MDRで構築した嗜好ペアは、視覚的な幻覚を抑制し、信頼性を向上させるためのDPOアライメントを効果的に可能にすることを示します。これは、VLMのアライメントに対してスケーラブルな解決策を提供します。