AIM:継続的ビジュアル質問応答における非対称情報マスキング

arXiv cs.CL / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、継続的ビジュアル質問応答(VQA)において、対称的で単一モーダルを前提に作られた既存の継続学習(CL)手法が、近年のビジョン・ランゲージモデル(VLM)には適合しないと主張しています。
  • 構造的な非対称性により、標準的なグローバル正則化が大規模な言語デコーダを過度に最適化してしまい、重要な一方で小さい視覚側の投影層が干渉を受けやすくなって破滅的忘却につながると説明しています。
  • 提案手法のAsymmetric Information Masking(AIM)は、モーダルごとの感度に基づくターゲット付きマスクで安定性と可塑性の両立を図り、脆弱な構成要素をより適切に保護します。
  • VQA v2およびGQAで継続的VQA設定の実験を行った結果、AIMは平均性能(AP)と平均忘却(AF)の両面で最先端の性能を達成し、新しいスキル概念の組合せに対する一般化能力もより良く保持することが示されています。

Abstract

継続的ビジュアル質問応答(VQA)では、既存の継続学習(CL)手法は主として対称的で単一モダリティのアーキテクチャ向けに構築されています。しかし、現代の視覚言語モデル(VLM)はこの仮定を破っています。というのも、VLMの学習可能な構成要素は本質的に非対称だからです。この構造的ミスマッチにより、VLMは連続データストリームから学習する際に、壊滅的忘却を起こしやすくなります。具体的には、非対称性のため、標準的なグローバル正則化が最適化中に巨大な言語デコーダを優先してしまい、その結果、より小さいものの重要な視覚投影層が干渉に対して非常に脆弱なままとなります。結果として、この局所的な劣化が、合成(コンポジショナル)推論能力の大幅な喪失につながります。これに対処するために、モダリティ固有の感度に基づくターゲット付きマスクを適用し、安定性と可塑性のバランスを取るAsymmetric Information Masking(AIM)を提案します。継続的VQA設定におけるVQA v2およびGQAでの実験により、AIMは平均パフォーマンス(AP)と平均忘却(AF)の両方において最先端の性能を達成し、さらに新しいスキル・概念の合成に対する汎化をより良く維持することが示されます。