SeGPruner: 3D質問応答のためのセマンティック幾何学的視覚トークン・プルーナー

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチビュー3D質問応答パイプラインにおける冗長な視覚トークンを削減するための、セマンティックに配慮した幾何学誘導型フレームワーク「SeGPruner」を提案する。
指標（サリエンシー）に応じたトークン選択器を用いて意味的に重要なトークンを保持し、一方で幾何学に応じたトークン分散器が、意味的関連性と3Dの幾何学的距離に基づいて空間的に多様なトークンを追加する。
本手法は、従来のプルーニング手法の限界（主に2Dに焦点を当てている、または間接的な幾何学的手がかりに依存している）を克服することを目指し、それにより意味的カバー率と空間的頑健性の双方の低下を抑える。
ScanQAおよびOpenEQAでの実験により、視覚トークン予算を91%削減し推論レイテンシを86%短縮しつつ、競争力のある3D推論性能を維持できることを示す。

要旨: 視覚言語モデル（VLM）は、3D質問応答（3D QA）に広く採用されている。一般的なパイプラインでは、複数視点から抽出した視覚トークンを言語トークンと連結し、大規模言語モデル（LLM）によって推論時に共同で処理する。しかし、マルチビューの観測を集約することは必然的に深刻なトークン冗長性を導入し、その結果として過度に大きな視覚トークン集合が形成され、制約されたトークン予算の下では推論効率を大きく阻害する。視覚トークンのプルーニングは、この問題に対処するための一般的な戦略として登場している。とはいえ、既存の多くのプルーナは主に2D入力向けに設計されているか、あるいは間接的な幾何学的手がかりに依存しており、そのため、意味論的に重要な対象を明示的に保持し、頑健な3D推論のために十分な空間的カバレッジを維持する能力が制限されている。本論文では、マルチビュー画像による効率的な3D QAのための、セマンティックに着目し幾何学に導かれたトークン削減フレームワークであるSeGPrunerを提案する。具体的には、SeGPrunerはまず、注意（attention）に基づく重要度モジュール（Saliency-aware Token Selector）によって、意味的に顕著なトークンを保持し、対象にとって重要な根拠が確実に保持されるようにする。次に、幾何学に導かれたセレクタ（Geometry-aware Token Diversifier）によって、意味的関連性と3D幾何学的距離の両方を同時に考慮しながら、これらのトークンに空間的に多様なトークンを補完する。すなわち、顕著性の保持と幾何学に導かれた多様化の協調により、攻めたトークン削減の下でも、対象レベルの根拠とグローバルなシーンカバレッジのバランスが取られる。ScanQAおよびOpenEQAでの大規模実験により、SeGPrunerが3D推論タスクにおいて推論効率を大幅に向上させ、視覚トークン予算を91%削減し、推論レイテンシを86%削減しつつ、競争力のある性能を維持することを示す。