言語のコスト:セントロイド消去がマルチモーダル言語モデルにおけるモーダル競合を露出・悪用する

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、マルチモーダル言語モデルが視覚知覚タスクで体系的に低性能になる理由を、セントロイド置換(各トークンを最寄りのK-meansセントロイドへ畳み込む)によるモーダル依存性の制御プローブとして解明しようとする。
  • 視覚セントロイド構造を消去するよりも、テキスト表現のセントロイド構造を消去したほうが精度低下が約4倍大きく、視覚推論が必要な課題でも言語表現が視覚を上回る普遍的な不均衡が示される。
  • この非対称性を「テキストセントロイド対照(contrastive)デコーディング」で活用し、テキストセントロイド消去の参照条件と対照的にデコードすることで、個別タスクで最大+16.9%の精度向上を得る。
  • 改善の大きさは学習アプローチによって変わり、標準の微調整モデルは平均+5.6%と大きい一方、嗜好最適化モデルは平均+1.5%にとどまる。
  • モーダル競合は構造的に局所化され、推論時の介入のみで再学習なしに是正可能であり、今後のマルチモーダル学習設計を導く診断シグナルとして定量化できることが示唆される。