要旨: 言語と視覚を統合するモデル(VLMs)はマルチモーダル理解において目覚ましい進展を遂げてきましたが、その位置エンコーディングのメカニズムはなお最適ではありません。既存の手法では、すべてのトークンに対して一様に位置インデックスを割り当てており、モダリティ内およびモダリティ間での情報密度の違いを見落としています。これにより、冗長な視覚領域が注意(attention)を支配する一方で、有益な内容が過小評価されるといった非効率が生じます。本研究では、位置の粒度を暗黙の資源と捉え、MODIX(Multimodal Information-Driven Positional IndeX Scaling:マルチモーダル情報駆動の位置インデックス・スケーリング)を提案します。MODIXは訓練不要の枠組みであり、モダリティ固有の寄与に応じて位置ストライド(間隔)を動的に適応させます。MODIXは、共分散に基づくエントロピーによりモダリティ内の密度を共同でモデル化し、さらにクロスモーダルなアラインメントによってモダリティ間の相互作用を捉えて、統一スコアを導出します。これにより、位置インデックスを再スケーリングして、有益なモダリティに対してより細かな粒度を割り当て、冗長なモダリティを圧縮します。さらに、この手法はモデルのパラメータやアーキテクチャのいかなる変更も必要としません。多様なアーキテクチャおよびベンチマークにまたがる実験の結果、MODIXは一貫してマルチモーダル推論を改善し、タスク依存の情報分布に応じて注意を適応的に再配分することが示されました。これは、マルチモーダル系列モデリングにおけるTransformerでは位置エンコーディングを適応的な資源として扱うべきであることを示唆しています。
MODIX: 視覚言語モデルのための、トレーニング不要のマルチモーダル情報駆動型位置インデックス・スケーリング
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在の視覚言語トランスフォーマにおける位置エンコーディングがインデックスを一様に割り当てているため、冗長な視覚領域への注意に無駄が生じうる一方で、有益な内容への割り当てが過小になり得ると主張する。
- 提案手法MODIXは、モデルのパラメータやアーキテクチャを変更することなく、モダリティ固有の情報密度に基づいて位置ストライドを適応的に調整する、トレーニング不要のフレームワークである。
- MODIXは、共分散に基づくエントロピーによってモダリティ内の密度を推定し、さらにクロスモーダルなアライメントによってモダリティ間の関係をモデル化し、これらを統一的なスコアとして組み合わせて位置の再スケーリングを行う。
- 複数のVLMアーキテクチャおよびベンチマークに対する実験により、マルチモーダル推論において一貫した向上が見られ、注意の再配分がタスク依存的になることが示される。
- 著者らは、位置エンコーディングはマルチモーダル・トランスフォーマのシーケンスモデリングにおける適応可能なリソースとして扱うべきだと結論づけている。
