減衰から注意へ：きめ細かな視覚認識のための変分情報フロー操作

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多モーダル大規模言語モデルが微細な視覚タスクでしばしば性能を十分に発揮できないのは、「Visual Attenuation（視覚の減衰）」によるものであると主張する。これは、ネットワークの伝播過程で、支配的なテキストトークンによって微小な視覚手がかりが抑制されたり希釈されたりする現象である。
質問-回答に関連する視覚的サリエンシーを潜在分布としてモデル化するために、条件付き変分オートエンコーダ（CVAE）を用いた、変分情報フロー（VIF）フレームワークを提案する。
VIFは、既存のMLLMアーキテクチャにプラグアンドプレイで統合できるよう設計されており、視覚的な希釈によって失われた情報を回復することを目的としている。
General VQA、きめ細かな知覚、視覚的グラウンディングのベンチマークにわたる実験では、先行手法に対して競争力のある改善が示され、このアプローチの有効性が裏付けられる。

概要: マルチモーダル大規模言語モデル（MLLM）は一般的な視覚理解において印象的な能力を示している一方で、微小な物体の識別や微妙な視覚的関係の見極めを要する微細粒度の知覚タスクでは頻繁に力を発揮できません。我々はこの制約を「視覚減衰（Visual Attenuation）」に起因すると考えています。これは、ネットワーク伝播の過程で、疎な微細粒度の視覚信号が支配的なテキストトークンによって早期に抑制または希釈され、その結果、深いレベルでの意思決定プロセスにおいて「焦点の喪失（loss of focus）」が生じる現象です。既存の入力中心の解決策は、この情報損失の本質的なメカニズムを根本的に反転させることには失敗しています。そこで、この課題に対処するために、変分情報フロー（Variational Information Flow: VIF）フレームワークを提案します。確率論的な視点を採用し、VIFは条件付き変分オートエンコーダ（Conditional Variational Autoencoder: CVAE）を用いて、質問-回答ペアに関連する視覚的顕著性を潜在分布としてモデル化します。プラグアンドプレイ型のモジュールとして、VIFは既存のアーキテクチャに統合可能です。一般的VQA、微細粒度の知覚、視覚的グラウンディングを含む多様なベンチマークにわたる大規模な評価により、VIFが先行手法に対して競争力のある改善をもたらし、MLLMの微細粒度知覚を強化する有効性が検証されることを示します。

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

減衰から注意へ：きめ細かな視覚認識のための変分情報フロー操作

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減