潜在デノイジングが大規模マルチモーダルモデルの視覚アラインメントを改善

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、LLaVAのような大規模マルチモーダルモデルで一般的な課題である「自己回帰的な言語モデリング目的による視覚トークンへの間接的な教師信号」が、視覚表現の弱さや分布シフト下での脆さにつながる点を扱います。
  • 著者らは、顕著性(saliency)に応じたマスキングとガウスノイズの混合で射影された視覚トークンを破壊(コラプト)し、その後中間のLLMレイヤーの隠れ状態からデコーダを介して「クリーンな教師のパッチ特徴」を復元するよう学習する潜在デノイジング枠組みを提案します。
  • 表現の崩壊(collapse)を防ぐために、教師の画像内類似度構造を維持しつつ、画像内コントラストによるパッチ蒸留も加えます。
  • 推論時には破壊処理と補助ヘッドを無効化するため、推論コストの追加なしで、複数のマルチモーダル・ベンチマークで性能が改善し、特に自然ベンチのような構成的ロバスト性やImageNet-C型の非対向的な破損に対する耐性が向上します。
  • 再現や発展的な検証を容易にするため、コードが指定のGitHubで公開されています。

Abstract

LLaVA のような大規模マルチモーダルモデル(LMMs)は一般に、自己回帰型の言語モデリング目的で学習され、視覚トークンに対しては間接的な教師信号しか与えられません。その結果、内部の視覚表現が弱くなることが多く、分布シフトに対して挙動が脆くなります。高品質な視覚トークナイザを学習するための潜在ノイズ除去(latent denoising)の最近の進展に触発され、同じ原理が、LMM における内部視覚特徴の整合とマルチモーダル理解を改善するための効果的な視覚教師信号として機能することを示します。私たちは、顕著性(saliency)を考慮したマスキングの混合とガウスノイズ付与を用いて、投影された視覚トークンを破壊(corrupt)する潜在ノイズ除去フレームワークを提案します。LMM は、デコーダを用いて、選択した中間の LLM 層における隠れ状態(hidden states)から、教師のクリーンなパッチ特徴を復元することで、これらの破壊されたトークンをノイズ除去(denoise)するように学習されます。表現の崩壊(representation collapse)を防ぐために、このフレームワークは教師の同一画像内における類似度構造を保持し、さらに画像内コントラスト的パッチ蒸留(intra-image contrastive patch distillation)を適用します。推論時には破壊処理と補助ヘッドを無効化し、推論時の追加オーバーヘッドは導入されません。幅広い標準的なマルチモーダルベンチマーク群において、私たちの方法は強力なベースラインに比べ一貫して視覚理解と推論を改善し、組成的(compositional)ロバスト性ベンチマーク(例:NaturalBench)で明確な向上をもたらします。さらに、ベンチマーク画像に対して ImageNet-C のような非敵対的な一般的破損(common corruptions)を適用した場合、私たちの方法は高い精度を維持し、中程度および重度の破損レベルの両方で劣化が抑えられることを示します。コードは https://github.com/dhruvashp/latent-denoising-for-lmms で公開しています。