Seek-and-Solve:日常シーンにおける視覚的手がかり駆動の推論のためのMLLMベンチマーク手法

arXiv cs.CV / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のMLLMベンチマークがしばしば知識や基本的な知覚を評価する一方で、実際の日常状況において決定的な視覚的手がかりを見つけるために必要な推論力を十分に評価できていないと主張する。
  • 認証された日常の活動に根ざし、表面的な認識を超えた推論を要求する新しいベンチマーク「DailyClue」を提案する。
  • DailyClueのクエリは、単に物体や属性を識別するのではなく、追跡する推論のために関連する視覚的手がかりを能動的に選択して用いることをモデルに求める。
  • 本ベンチマークは4つの日常ドメインをカバーするデータセットと16のサブタスクを含み、手がかりに基づく推論の難しさを際立たせるために、MLLMとエージェント型モデルの両方を評価する。
  • 結果と分析は、頑健な推論性能のための重要な前提として、視覚的手がかりを正確に特定することが挙げられる。

アブストラクト: 日常シナリオは視覚的な豊かさによって特徴づけられ、正確な推論のためにマルチモーダル大規模言語モデル(MLLM)には、ノイズをフィルタリングし、決定的な視覚的手がかりを特定することが求められます。しかし、現在のベンチマークは主に、MLLMの既存の知識や知覚の理解度を評価することを目的としており、推論という重要な能力を見過ごしていることが多いのが実情です。このギャップを埋めるために、日常シナリオにおける視覚的手がかり駆動の推論のためのベンチマークであるDailyClueを導入します。構築は2つの中核となる原則によって導かれています: (1)実際の毎日の活動への厳密な根拠付け、そして(2)表層的な知覚だけでは不十分であることを要求する、挑戦的なクエリ設計です。単純な認識ではなく、私たちの質問はMLLMに対して、適切な視覚的手がかりを能動的に探索し、その後の推論にそれらを活用することを促します。そこで、4つの主要な日常領域と16の異なるサブタスクにまたがる包括的なデータセットを厳選しました。MLLMおよびエージェント型モデルに対する包括的な評価は、私たちのベンチマークが突きつける難しさの大きさを裏付けています。分析の結果、いくつかの重要な洞察が得られました。すなわち、頑健な推論のためには、視覚的手がかりの正確な特定が不可欠であることを強調しています。