Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

arXiv cs.CV / 4/3/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、知識集約型の画像質問応答において、マルチモーダルLLMが「最も関連する視覚領域」と「取得したテキスト証拠」をうまく特定できず、ノイズや部分的な関連情報の統合に課題がある点を指摘しています。
  • 学習なし(training-free)の推論時フレームワーク「Look Twice (LoT)」を提案し、事前学習済みMLLMの注意(attention)パターンから、クエリに対して重要な視覚領域とテキスト要素を推定してそれらに基づいて回答生成を行います。
  • 関連証拠への再注目を促すため、軽量なプロンプト・レベルのマーカー(提示)で選択した手がかりをハイライトし、生成時にモデルが再度注目できるようにします。
  • 複数の知識ベースVQAベンチマークでゼロショットMLLMに対する一貫した改善が示され、さらにテキスト文脈がない場面でもビジョン中心・幻覚評価ベンチマークで「視覚証拠のハイライト」自体が性能向上に寄与することを示しています(追加学習やアーキテクチャ変更なし)。
  • ソースコードは公開予定で、既存の事前学習済みMLLMに対して推論時のみ適用する形で実験・導入しやすい点が強調されています。

Abstract

Answering questions about images often requires combining visual understanding with external knowledge. Multimodal Large Language Models (MLLMs) provide a natural framework for this setting, but they often struggle to identify the most relevant visual and textual evidence when answering knowledge-intensive queries. In such scenarios, models must integrate visual cues with retrieved textual evidence that is often noisy or only partially relevant, while also localizing fine-grained visual information in the image. In this work, we introduce Look Twice (LoT), a training-free inference-time framework that improves how pretrained MLLMs utilize multimodal evidence. Specifically, we exploit the model attention patterns to estimate which visual regions and retrieved textual elements are relevant to a query, and then generate the answer conditioned on this highlighted evidence. The selected cues are highlighted through lightweight prompt-level markers that encourage the model to re-attend to the relevant evidence during generation. Experiments across multiple knowledge-based VQA benchmarks show consistent improvements over zero-shot MLLMs. Additional evaluations on vision-centric and hallucination-oriented benchmarks further demonstrate that visual evidence highlighting alone improves model performance in settings without textual context, all without additional training or architectural modifications. Source code will be publicly released.