永続的ビジュアルメモリ:LVLMにおける深い生成のための知覚を維持する

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 自己回帰型の大規模視覚言語モデル(LVLM)では、「Visual Signal Dilution(視覚信号の希薄化)」により、生成が長くなるほどテキスト履歴の蓄積が原因で視覚注意が減衰する問題が起こり得ます。
  • 本論文は、生成中にオンデマンドで視覚知覚を持続させるための軽量な学習モジュール「Persistent Visual Memory(PVM)」を提案します。
  • PVMはLVLMのFFN(Feed-Forward Network)と並列のブランチとして組み込まれ、距離に依存しないリトリーバル経路を通じて視覚埋め込みを直接供給し、知覚の抑制を構造的に緩和します。
  • 実験ではQwen3-VLで4B/8B両方のモデルサイズにわたって一貫した精度向上が確認され、特に継続的な視覚知覚を要する複雑な推論タスクで効果が大きいとされています。
  • さらに分析により、PVMは生成長に起因する信号減衰に耐え、内部の予測収束も加速できることが示されています。