要旨: 画像言語モデル(VLM)は、視覚認識、文書解析、視覚的グラウンディングなど、幅広いタスクにおいて強力な能力を示してきました。それにもかかわらず、近年の研究では、VLMがしばしば質問に対応する正しい画像領域を捉えることに成功している一方で、必ずしも正しい回答を生成していないことが示されています。本研究では、この不整合はVLM内部における情報伝達が最適でないことに起因しうることを示します。具体的には、テキストトークンが無関係な視覚トークンに過度に注意を向けてしまい、その結果として誤った回答につながるというものです。この観察に基づき、推論中に情報伝達を調整することで、VLMの知覚能力を改善できることを示します。考え方は、復号(デコード)中に重要な視覚トークンに対してのみテキストトークンが関連付けられるべきであり、無関係な領域による干渉を取り除くことです。これを達成するために、復号段階の違いにおいて異なる活性化パターンを示す視覚トークンを重要なものとみなす、トークン・ダイナミクスに基づく手法を提案します。我々は、このアプローチを代表的なオープンソースVLMに適用し、視覚質問応答、視覚的グラウンディングとカウント、光学文字認識、物体幻覚(object hallucination)など、さまざまなデータセットで評価します。その結果、提案手法はベースラインの性能を大幅に向上させることが示されました。プロジェクトページ: https://cxliu0.github.io/AIF/.
視覚言語モデルの「見えているもの」と「知覚」のズレを、適応的な情報フローで整合させる
arXiv cs.CV / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデル(VLM)は質問に対応する正しい画像領域を捉えられる一方で、誤った答えになるのはモデル内部のテキストトークンと視覚トークン間の情報フローが最適でないことに起因し得ると主張します。
- その原因として、テキストトークンが無関係な視覚トークンへ過度に注意を向けることで、デコード中に干渉が生じる点を挙げています。
- 著者らは推論時に情報フローを調整し、デコード中に重要な視覚トークンにだけテキストトークンを関連付けることで、無関係領域からの妨害を減らす方針を示します。
- 重要な視覚トークンの特定には、デコード段階ごとに異なる活性化パターンを示す視覚トークンを「重要」とみなす、トークンダイナミクスに基づく手法を提案しています。
- 画像質問応答、視覚的グラウンディング/カウント、OCR、物体ハルシネーションなどの複数タスクで、複数のオープンソースVLMに適用した結果、ベースラインを大きく上回る改善が報告されています。



