要旨: ピクセルではなくワーピング(歪み変換)トークンによって、多モーダル大規模言語モデル(MLLMs)が、近い視点から見たときにシーンがどのように見えるかを理解するのに役立つのでしょうか?MLLMsは視覚的推論では良好な性能を示す一方で、ピクセル単位のワーピングは小さな深度誤差に非常に敏感で、幾何学的な歪みをしばしば引き起こすため、視点の変化に対して脆弱なままです。本研究では、人の視点変換の基礎として部品(パート)レベルの構造表現があるとするメンタル・イメージリー(心的イメージ)に関する理論に基づき、ViTベースのMLLMにおける画像トークンが、視点変化のための有効な基盤(サブストレート)となり得るかを検討します。順方向および逆方向のワーピングを比較したところ、逆方向トークンワーピング(ターゲット視点上に密なグリッドを定義し、グリッド各点に対応するソース視点のトークンを取得する手法)は、より高い安定性を達成し、視点が変わった際にも意味的なコヒーレンスをより良く保持することが分かりました。提案するViewBenchベンチマークでの実験により、トークン単位のワーピングは、MLLMが近い視点からでも確実に推論できることを示し、ピクセル単位のワーピング手法、空間的に微調整したMLLM、生成的ワーピング手法を含むすべてのベースラインを一貫して上回りました。
トークン・ワーピングは近距離の視点からの見えを高める──MLLMに有効
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ピクセルではなく画像トークンをワーピングすることで、マルチモーダル大規模言語モデル(MLLM)が近距離の視点からのシーン理解に役立つかを調査し、深度誤差によるピクセル単位のワーピングの脆さに取り組む。
- フォワード(順方向)とバックワード(逆方向)のトークン・ワーピングを比較し、バックワード・トークン・ワーピングの方がより安定しており、視点移動時に意味の整合性をより適切に保持することを見出す。
- 著者らはViewBenchベンチマークを導入・評価し、トークン単位のワーピングがより信頼性の高い視点推論を可能にすることを示す。
- 結果として、トークン・レベルのワーピングは、ピクセル単位のワーピング、空間的に微調整したMLLM、生成的ワーピング手法など複数のベースラインを上回る。




