連続距離を超えて: インタモーダル距離不変性位置エンコーディング

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

要点

  • 本論文は、Multimodal RoPE の距離ベースの帰納的バイアスが、テキスト列の長さが増すにつれてモーダリティ間アテンションを低下させ、長文コンテキスト生成時の視覚信号の低下を招くことを指摘しています。
  • モーダリティごとに位置エンコーディングを分離してモーダリティ内の局所性を保持しつつ、モーダリティ間の近接性をアンカーするインタモーダル距離不変性位置エンコーディング(DIPE)を提案します。
  • DIPE を Multimodal RoPE と組み合わせると、モーダリ間距離ペナルティを緩和し、長いコンテキスト全体で視覚信号を知覚的に安定させます。
  • 実験結果は、短いコンテキストのベンチマークでの性能を維持しつつ、長いコンテキストでの視覚基盤を大幅に改善することを示しており、コードはリンクされた GitHub リポジトリで入手可能です。

本文: arXiv:2603.10863v1 Announce Type: new Abstract: 先進的なマルチモーダル大規模言語モデル(MLLMs)の顕著な能力にもかかわらず、長いコンテキストシナリオでは視覚信号の低下に悩まされ続けています。具体的には、視覚トークンへのアテンションは、テキスト列の長さが長くなるにつれて弱まり、視覚的制約から乖離したテキスト生成を招きます。これは、視覚トークンとテキストトークンの距離が大きくなるとモーダリティ間のアテンションをペナルティ化する、Multimodal RoPE の固有の帰納的バイアスに起因すると考えます。これに対処するため、モーダリティ間の相互作用に基づく位置エンコーディングを分離する、単純でありながら効果的な仕組みであるインタモーダル距離不変性位置エンコーディング(DIPE)を提案します。DIPE は、モーダリティ内の相互作用に対して自然な相対配置を維持して局所構造を保つ一方、モーダリティ間の相互作用にはアンカー付きの知覚的近接を確保します。この戦略はモーダリティ間の距離ベースのペナルティを効果的に緩和し、文脈の長さに関係なく視覚信号を知覚的に一貫させます。実験結果は、DIPE を Multimodal RoPE と組み合わせることで、長いコンテキストシナリオで視覚基盤を安定させ、視覚信号の低下を著しく緩和しつつ、標準的な短い文脈ベンチマークでの性能を維持することを示しています。コードは https://github.com/lchen1019/DIPE で公開されています。