要旨: Vision Transformer(ViT)ベースの疎(sparse)なマルチビュー3D物体検出器は目覚ましい精度を達成していますが、重いトークン処理により推論レイテンシが高いという課題がまだ残っています。このモデルを高速化するために、トークン圧縮が広く検討されてきました。しかし、トークンプルーニング、マージ、パッチサイズの拡大といった既存の戦略を再検討したところ、それらはしばしば有益な背景の手がかりを捨ててしまい、文脈の一貫性を損ない、微細な意味(fine-grained semantics)を失うことで、3D検出に悪影響を及ぼすことがわかりました。これらの制約を克服するために、我々はSEPatch3Dという新しい枠組みを提案します。この枠組みでは、粗いパッチ内において重要な意味情報を保持しつつ、パッチサイズを動的に調整します。具体的には、近接する物体を含むシーンには微細な詳細を保持するため小さなパッチを割り当て、背景が支配的なシーンには計算コストを削減するため大きなパッチを割り当てる、時空間を考慮したパッチサイズ選択(Spatiotemporal-aware Patch Size Selection: SPSS)を設計します。潜在的な詳細の損失をさらに抑えるために、Informative Patch Selection(IPS)が特徴の精緻化(feature refinement)のための有益なパッチを選択し、Cross-Granularity Feature Enhancement(CGFE)が選択された粗いパッチに微細な詳細を注入することで、意味的特徴を豊かにします。nuScenesおよびArgoverse 2の検証セットでの実験では、SEPatch3DはStreamPETRのベースラインに比べて最大で extbf{57}より高速な推論を達成し、最先端のToC3D-fasterに比べて extbf{20}高い効率を示しながら、同等の検出精度を維持することが示されました。コードはhttps://github.com/Mingqj/SEPatch3Dで公開されています。
ViTベースのスパースなマルチビュー3Dオブジェクト検出を加速するためのトークン圧縮の再検討
arXiv cs.CV / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- ViTベースのスパースなマルチビュー3Dオブジェクト検出器は高い精度を持つ一方で、トークン処理が重いため推論の遅延が課題になっています。
- トークン圧縮の既存手法(トークンプルーニング/マージやパッチサイズの拡大)は、情報量のある背景手がかりを捨てたり、文脈の一貫性を崩したり、微細な意味を失ったりして、3D検出を悪化させがちです。
- 本論文では、SEPatch3Dとして、重要なセマンティクス情報を保ったままパッチサイズを動的に調整し、計算量を削減する枠組みを提案しています。
- SEPatch3DはSPSS(近距離の物体があるシーンでは小さなパッチ、背景が支配的なシーンでは大きなパッチを選択)、IPS(特徴の洗練のために情報量の多いパッチを選ぶ)、CGFE(粗いパッチへ細粒度の詳細を注入する)を含みます。
- nuScenesとArgoverse 2での実験では、StreamPETRに対して最大57%の推論高速化、ToC3D-fasterに対して20%の効率向上を示しつつ、検出精度は同等に保たれ、コードもGitHubで公開されています。




