Look Twice：マルチモーダル大規模言語モデルにおける、学習不要の証拠ハイライト手法

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、知識集約型の画像質問応答において、マルチモーダルLLMが「最も関連する視覚領域」と「取得したテキスト証拠」をうまく特定できず、ノイズや部分的な関連情報の統合に課題がある点を指摘しています。
学習なし（training-free）の推論時フレームワーク「Look Twice（LoT）」を提案し、事前学習済みMLLMの注意（attention）パターンから、クエリに対して重要な視覚領域とテキスト要素を推定してそれらに基づいて回答生成を行います。
関連証拠への再注目を促すため、軽量なプロンプト・レベルのマーカー（提示）で選択した手がかりをハイライトし、生成時にモデルが再度注目できるようにします。
複数の知識ベースVQAベンチマークでゼロショットMLLMに対する一貫した改善が示され、さらにテキスト文脈がない場面でもビジョン中心・幻覚評価ベンチマークで「視覚証拠のハイライト」自体が性能向上に寄与することを示しています（追加学習やアーキテクチャ変更なし）。
ソースコードは公開予定で、既存の事前学習済みMLLMに対して推論時のみ適用する形で実験・導入しやすい点が強調されています。