要約:効果的な協働は、助けを求めるべきときを知ることから始まる。たとえば、遮蔽された物体を特定しようとするとき、人間は障害物を取り除くよう他者に依頼するだろう。MLLM は、単純なユーザー介入を求めることで、同様の「プロアクティブ」な振る舞いを示すことができるだろうか?これを調査するため、7つの再利用データセットから構築されたベンチマーク ProactiveBench を導入する。これは、遮蔽された物体の認識、画像品質の向上、粗いスケッチの解釈といったさまざまなタスクに渡ってプロアクティブさを評価する。ProactiveBench 上で 22 の MLLMs を評価し、以下を示す:(i) 彼らは一般的にプロアクティブさを欠く;(ii) プロアクティブさはモデル容量と相関しない;(iii) 「プロアクティブさを示唆する」ことは、わずかな利得しかもたらさない。驚くべきことに、会話履歴と文脈内学習はネガティブなバイアスを導入し、性能を妨げることが分かった。最後に、強化学習に基づく単純なファインチューニング戦略を検討する。その結果、プロアクティブさは学習できる可能性があり、未見のシナリオにも一般化することが示唆される。私たちは、プロアクティブなマルチモーダルモデルの構築へ向けた第一歩として ProactiveBench を公開する。
ProactiveBench: マルチモーダル大規模言語モデルにおけるプロアクティブ性のベンチマーク
arXiv cs.CV / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ProactiveBench は、遮蔽された物体の認識、画質の向上、粗いスケッチの解釈などのタスクを横断して、マルチモーダル大規模言語モデルのプロアクティブ性を評価するために、7つの再利用データセットから構築されたベンチマークとして紹介される。
- 22のMLLMの評価は、現行のモデルはいずれもプロアクティブ性を欠いており、プロアクティブ性はモデル容量と相関しないことを示している。
- 本研究は、プロアクティブ性を示唆するだけではわずかな改善しか得られず、会話履歴とインコンテキスト学習は性能を妨げる負のバイアスを導入することを発見した。
- 簡易な強化学習ベースのファインチューニング戦略により、プロアクティブ性は学習可能で、未知のシナリオへも一般化できることが示され、ProactiveBench は公表され、プロアクティブなマルチモーダルモデルの開発を促進する。




