視覚言語モデルにおけるモダリティ優位性を緩和するための情報ルーター

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

視覚言語モデルは、出力が一方のモダリティに過度に依存しやすく、モダリティ間での根拠のバランスが崩れる「モダリティ優位性」問題を抱えがちです。
これまでの対策は主に注意（attention）の重み付けを調整しており、注意はモデルがどこを見るかを変えるだけで、欠けている／曖昧な情報を補うことはできません。
本論文では、融合の前に情報格差を縮める情報レベルの融合手法としてMoIR（Multi-modal Information Router）を提案します。情報が乏しいトークンを特定し、より強いモダリティから補完的な情報をルーティングして、LLMに渡す前に情報密度の高い表現を構築します。
3つの代表的なマルチモーダルベンチマークで、複数のモデルバックボーンに対して評価したところ、MoIRはモダリティ寄与のバランスを一貫して改善し、頑健性と下流性能も向上しました（特に片方のモダリティが劣化する状況で顕著です）。
モダリティ間の情報可用性を明示的に調整することが、マルチモーダル推論の信頼性向上に有効な補完的戦略であることが示唆されます。

Dev.to

Dev.to

Dev.to

Reddit r/artificial

Qiita