潜在デノイジングが大規模マルチモーダルモデルの視覚アラインメントを改善
arXiv cs.CV / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、LLaVAのような大規模マルチモーダルモデルで一般的な課題である「自己回帰的な言語モデリング目的による視覚トークンへの間接的な教師信号」が、視覚表現の弱さや分布シフト下での脆さにつながる点を扱います。
- 著者らは、顕著性(saliency)に応じたマスキングとガウスノイズの混合で射影された視覚トークンを破壊(コラプト)し、その後中間のLLMレイヤーの隠れ状態からデコーダを介して「クリーンな教師のパッチ特徴」を復元するよう学習する潜在デノイジング枠組みを提案します。
- 表現の崩壊(collapse)を防ぐために、教師の画像内類似度構造を維持しつつ、画像内コントラストによるパッチ蒸留も加えます。
- 推論時には破壊処理と補助ヘッドを無効化するため、推論コストの追加なしで、複数のマルチモーダル・ベンチマークで性能が改善し、特に自然ベンチのような構成的ロバスト性やImageNet-C型の非対向的な破損に対する耐性が向上します。
- 再現や発展的な検証を容易にするため、コードが指定のGitHubで公開されています。


