Perceptio: 空間トークン生成による知覚強化型視覚言語モデル

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

共有:

要点

Perceptioは、自己回帰生成中に空間トークン（セマンティックセグメンテーション・トークンと深度トークン）を出力することで、明示的な2D/3D空間推論を可能にする知覚強化型LVLMを提案します。
密な深度を、単眼教師モデルから蒸留された VQVAE コードブックでトークン化し、LLM内部に SAM2 のセマンティックセグメンテーション・トークンを統合して、回答前に空間推論を根拠づけます。
この手法は、マーカー損失・トークン損失・カウント損失といった複合的な深度トークン目的と、深度トークン生成を安定化させるソフトマージ手法を用いて、深度トークンの生成と微分可能な再構成を安定化します。
多様なデータセットを横断するマルチタスク共訓練により、モデルは複数の下流タスクの知覚トークンを学習し、InternVLを基盤としている。
ベンチマークでは、Perceptioは最先端の結果を達成し、RefCOCOシリーズのセグメンテーション指標を高め、空間理解の精度を10.3%向上させ、MMBenchの精度を1.0%向上させ、明示的な空間チェーン・オブ・ソートがLVLMのグラウンディングを強化することを示しています。

概要:
大型視覚言語モデル（LVLMs）は意味理解に優れていますが、微細な空間的グラウンディングには苦労します。モデルは空間的解釈を一度も出力することなく、複雑なジオメトリを暗黙的に推論しなければならないからです。
本研究ではPerceptioを提案します。これは2Dおよび3Dの空間推論能力を備えた知覚強化LVLMで、明示的な意味セグメンテーショントークンと自己回帰シーケンス内で直接生成される深度トークンによって有効化されます。
具体的には、(i) 強力なモノキュラ教師からVQVAE深度コードブックを蒸留して密な深度を圧縮された系列にトークン化し、(ii) SAM2ベースの意味セグメンテーショントークンとVQ-VAE深度トークンをLLM内に統合することで、モデルがまず空間トークンを出力し、それから回答するようにします。
深度トークン生成を安定させるために、新規の複合的深度トークン目的関数（マーカー損失、トークン損失、カウント損失）と微分可能再構成のソフトマージ手法を導入します。
多様なデータセットを跨ぐマルチタスク共訓練戦略を採用し、モデルが知覚トークンを学習して複数のダウンストリームタスクに対応できるようにします。
InternVLを土台として、Perceptioはベンチマーク全体で最先端の性能を達成します：RefCOCO/+/g における指示表現のセグメンテーションを+0.8/+1.4/+1.1 cIoU向上、HardBLINKにおける空間理解の精度を10.3%、MMBenchの精度を1.0%向上させ、明示的な空間の思考の連鎖がLVLMsの空間グラウンディングを実質的に強化することを示しています。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

Perceptio: 空間トークン生成による知覚強化型視覚言語モデル

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer