概要:
大型視覚言語モデル(LVLMs)は意味理解に優れていますが、微細な空間的グラウンディングには苦労します。モデルは空間的解釈を一度も出力することなく、複雑なジオメトリを暗黙的に推論しなければならないからです。
本研究ではPerceptioを提案します。これは2Dおよび3Dの空間推論能力を備えた知覚強化LVLMで、明示的な意味セグメンテーショントークンと自己回帰シーケンス内で直接生成される深度トークンによって有効化されます。
具体的には、(i) 強力なモノキュラ教師からVQVAE深度コードブックを蒸留して密な深度を圧縮された系列にトークン化し、(ii) SAM2ベースの意味セグメンテーショントークンとVQ-VAE深度トークンをLLM内に統合することで、モデルがまず空間トークンを出力し、それから回答するようにします。
深度トークン生成を安定させるために、新規の複合的深度トークン目的関数(マーカー損失、トークン損失、カウント損失)と微分可能再構成のソフトマージ手法を導入します。
多様なデータセットを跨ぐマルチタスク共訓練戦略を採用し、モデルが知覚トークンを学習して複数のダウンストリームタスクに対応できるようにします。
InternVLを土台として、Perceptioはベンチマーク全体で最先端の性能を達成します:RefCOCO/+/g における指示表現のセグメンテーションを+0.8/+1.4/+1.1 cIoU向上、HardBLINKにおける空間理解の精度を10.3%、MMBenchの精度を1.0%向上させ、明示的な空間の思考の連鎖がLVLMsの空間グラウンディングを実質的に強化することを示しています。
Perceptio: 空間トークン生成による知覚強化型視覚言語モデル
arXiv cs.CV / 2026/3/20
📰 ニュースModels & Research
要点
- Perceptioは、自己回帰生成中に空間トークン(セマンティックセグメンテーション・トークンと深度トークン)を出力することで、明示的な2D/3D空間推論を可能にする知覚強化型LVLMを提案します。
- 密な深度を、単眼教師モデルから蒸留された VQVAE コードブックでトークン化し、LLM内部に SAM2 のセマンティックセグメンテーション・トークンを統合して、回答前に空間推論を根拠づけます。
- この手法は、マーカー損失・トークン損失・カウント損失といった複合的な深度トークン目的と、深度トークン生成を安定化させるソフトマージ手法を用いて、深度トークンの生成と微分可能な再構成を安定化します。
- 多様なデータセットを横断するマルチタスク共訓練により、モデルは複数の下流タスクの知覚トークンを学習し、InternVLを基盤としている。
- ベンチマークでは、Perceptioは最先端の結果を達成し、RefCOCOシリーズのセグメンテーション指標を高め、空間理解の精度を10.3%向上させ、MMBenchの精度を1.0%向上させ、明示的な空間チェーン・オブ・ソートがLVLMのグラウンディングを強化することを示しています。