要旨: 多モーダル大規模言語モデル(MLLMs)の最近の進展により、推論能力が3D領域へと拡張され、きめ細かな空間理解が可能になりました。しかし、3D MLLMsの大規模さと入力特徴の高い次元性は、かなりの推論オーバーヘッドを引き起こし、その結果、リソースが制約されたプラットフォームでの実用的な展開を制限しています。この制約を克服するため、本論文は、視覚トークンのプルーニングを加速する統一的フレームワークであるEfficient3Dを提案し、競争力のある精度を維持しつつ3D MLLMsを高速化します。提案フレームワークは、注意の集約において浅い初期層の影響を考慮する、Debiased Visual Token Importance Estimator(DVTIE)モジュールを導入し、それによって視覚トークンの重要度予測をより信頼性の高いものにします。さらに、Adaptive Token Rebalancing(ATR)戦略を開発し、シーンの複雑さに応じてプルーニングの強度を動的に調整することで、意味の完全性を保持しつつ、層間での注意をバランスよく維持します。これらにより、必須の意味を低計算量で維持したまま行える、文脈に応じたトークン削減が実現されます。ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dを含む5つの代表的な3Dビジョンと言語のベンチマークで実施した包括的な実験の結果、Efficient3Dは、非プルーニングのベースラインと比較して優れた性能を達成し、Scan2CapデータセットでCIDErが+2.57%向上しました。したがって、Efficient3Dは、3D MLLMsにおける効率的な推論のためのスケーラブルで効果的な解決策を提供します。コードは以下で公開されています: https://github.com/sol924/Efficient3D
Efficient3D:3D MLLMにおける適応的かつデバイアスされたトークン削減のための統一フレームワーク
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、制約のあるハードウェア上での推論コストを削減するために、適応的かつデバイアスされた視覚トークンのプルーニングによって3Dマルチモーダル大規模言語モデル(3D MLLM)を高速化する統一フレームワーク「Efficient3D」を提案する。
- Efficient3Dは、浅い注意層の影響を考慮するDebiased Visual Token Importance Estimator(DVTIE)を追加し、より信頼性の高いトークン重要度スコアを得る。
- さらに、シーンの複雑さに応じてプルーニングの強度を動的に変えるAdaptive Token Rebalancing(ATR)を提案し、意味的完全性を維持しつつ、層間での注意のバランスを保つ。
- 5つの3Dビジョン・言語ベンチマーク(ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, SQA3D)において、本手法は非削減のベースラインよりも改善し、Scan2Capでは+2.57%のCIDEr向上を達成する。
- 著者らは関連コードをGitHubで公開したと報告しており、本フレームワークによる効率的な3D MLLM推論の再現性と実践的な実験を支援する。



