AIM:継続的ビジュアル質問応答における非対称情報マスキング
arXiv cs.CL / 2026/4/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、継続的ビジュアル質問応答(VQA)において、対称的で単一モーダルを前提に作られた既存の継続学習(CL)手法が、近年のビジョン・ランゲージモデル(VLM)には適合しないと主張しています。
- 構造的な非対称性により、標準的なグローバル正則化が大規模な言語デコーダを過度に最適化してしまい、重要な一方で小さい視覚側の投影層が干渉を受けやすくなって破滅的忘却につながると説明しています。
- 提案手法のAsymmetric Information Masking(AIM)は、モーダルごとの感度に基づくターゲット付きマスクで安定性と可塑性の両立を図り、脆弱な構成要素をより適切に保護します。
- VQA v2およびGQAで継続的VQA設定の実験を行った結果、AIMは平均性能(AP)と平均忘却(AF)の両面で最先端の性能を達成し、新しいスキル概念の組合せに対する一般化能力もより良く保持することが示されています。



