MODIX: 視覚言語モデルのための、トレーニング不要のマルチモーダル情報駆動型位置インデックス・スケーリング

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の視覚言語トランスフォーマにおける位置エンコーディングがインデックスを一様に割り当てているため、冗長な視覚領域への注意に無駄が生じうる一方で、有益な内容への割り当てが過小になり得ると主張する。
提案手法MODIXは、モデルのパラメータやアーキテクチャを変更することなく、モダリティ固有の情報密度に基づいて位置ストライドを適応的に調整する、トレーニング不要のフレームワークである。
MODIXは、共分散に基づくエントロピーによってモダリティ内の密度を推定し、さらにクロスモーダルなアライメントによってモダリティ間の関係をモデル化し、これらを統一的なスコアとして組み合わせて位置の再スケーリングを行う。
複数のVLMアーキテクチャおよびベンチマークに対する実験により、マルチモーダル推論において一貫した向上が見られ、注意の再配分がタスク依存的になることが示される。
著者らは、位置エンコーディングはマルチモーダル・トランスフォーマのシーケンスモデリングにおける適応可能なリソースとして扱うべきだと結論づけている。

要旨: 言語と視覚を統合するモデル（VLMs）はマルチモーダル理解において目覚ましい進展を遂げてきましたが、その位置エンコーディングのメカニズムはなお最適ではありません。既存の手法では、すべてのトークンに対して一様に位置インデックスを割り当てており、モダリティ内およびモダリティ間での情報密度の違いを見落としています。これにより、冗長な視覚領域が注意（attention）を支配する一方で、有益な内容が過小評価されるといった非効率が生じます。本研究では、位置の粒度を暗黙の資源と捉え、MODIX（Multimodal Information-Driven Positional IndeX Scaling：マルチモーダル情報駆動の位置インデックス・スケーリング）を提案します。MODIXは訓練不要の枠組みであり、モダリティ固有の寄与に応じて位置ストライド（間隔）を動的に適応させます。MODIXは、共分散に基づくエントロピーによりモダリティ内の密度を共同でモデル化し、さらにクロスモーダルなアラインメントによってモダリティ間の相互作用を捉えて、統一スコアを導出します。これにより、位置インデックスを再スケーリングして、有益なモダリティに対してより細かな粒度を割り当て、冗長なモダリティを圧縮します。さらに、この手法はモデルのパラメータやアーキテクチャのいかなる変更も必要としません。多様なアーキテクチャおよびベンチマークにまたがる実験の結果、MODIXは一貫してマルチモーダル推論を改善し、タスク依存の情報分布に応じて注意を適応的に再配分することが示されました。これは、マルチモーダル系列モデリングにおけるTransformerでは位置エンコーディングを適応的な資源として扱うべきであることを示唆しています。

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

日経XTECH

MODIX: 視覚言語モデルのための、トレーニング不要のマルチモーダル情報駆動型位置インデックス・スケーリング

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減