トークン・ワーピングは近距離の視点からの見えを高める──MLLMに有効

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ピクセルではなく画像トークンをワーピングすることで、マルチモーダル大規模言語モデル（MLLM）が近距離の視点からのシーン理解に役立つかを調査し、深度誤差によるピクセル単位のワーピングの脆さに取り組む。
フォワード（順方向）とバックワード（逆方向）のトークン・ワーピングを比較し、バックワード・トークン・ワーピングの方がより安定しており、視点移動時に意味の整合性をより適切に保持することを見出す。
著者らはViewBenchベンチマークを導入・評価し、トークン単位のワーピングがより信頼性の高い視点推論を可能にすることを示す。
結果として、トークン・レベルのワーピングは、ピクセル単位のワーピング、空間的に微調整したMLLM、生成的ワーピング手法など複数のベースラインを上回る。

要旨: ピクセルではなくワーピング（歪み変換）トークンによって、多モーダル大規模言語モデル（MLLMs）が、近い視点から見たときにシーンがどのように見えるかを理解するのに役立つのでしょうか？MLLMsは視覚的推論では良好な性能を示す一方で、ピクセル単位のワーピングは小さな深度誤差に非常に敏感で、幾何学的な歪みをしばしば引き起こすため、視点の変化に対して脆弱なままです。本研究では、人の視点変換の基礎として部品（パート）レベルの構造表現があるとするメンタル・イメージリー（心的イメージ）に関する理論に基づき、ViTベースのMLLMにおける画像トークンが、視点変化のための有効な基盤（サブストレート）となり得るかを検討します。順方向および逆方向のワーピングを比較したところ、逆方向トークンワーピング（ターゲット視点上に密なグリッドを定義し、グリッド各点に対応するソース視点のトークンを取得する手法）は、より高い安定性を達成し、視点が変わった際にも意味的なコヒーレンスをより良く保持することが分かりました。提案するViewBenchベンチマークでの実験により、トークン単位のワーピングは、MLLMが近い視点からでも確実に推論できることを示し、ピクセル単位のワーピング手法、空間的に微調整したMLLM、生成的ワーピング手法を含むすべてのベースラインを一貫して上回りました。