動的トークン選択と微調整による効率的マルチビュー3D物体検出

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチビュー3D物体検出で一般的に用いられる、大規模な事前学習済みViTベースの基盤モデルをバックボーンとすることによる高い計算コストという課題に取り組む。
画像トークン補償器と動的な層ごとのトークン選択を組み合わせ、各層で固定のトークン選択比率を用いるToC3Dを上回る性能を目指す新しい手法を提案する。
提案手法では、パラメータ効率の高い微調整を導入し、提案モジュールのみを学習することで、微調整パラメータ数をフルのエンドツーエンドViT再学習に対して300M超から約1.6Mへと削減する。
NuScenesデータセットに対して、3つのマルチビュー3D検出アプローチで実験を行った結果、ToC3Dと比べて大きな効率改善（NVIDIA GV100上でGFLOPsが48–55%減、推論レイテンシが9–25%低下）に加え、精度向上（mAPが1.0–2.8%、NuScenes検出スコアが0.4–1.2%向上）を示す。

要旨: 既存のマルチビュー3次元（3D）物体検出アプローチの多くは、大規模に事前学習されたビジョントランスフォーマ（ViT）ベースの基盤モデルをバックボーンとして広く採用しており、計算が複雑になっています。この問題に対処するため、現状の最先端（SOTA）である効率的なマルチビューViTベースの3D物体検出手法 exttt{ToC3D} は、自己運動（ego-motion）に基づく関連トークン選択を用います。しかし、次の2つの重要な制限があります: （1）固定された層ごとの個別トークン選択比率により、学習時および推論時の計算効率が制限される。（2）マルチビュー3D物体検出手法のために、ViTバックボーンを全エンドツーエンドで再学習する必要がある。本研究では、マルチビュー3D物体検出を加速するために、ViTバックボーン向けのトークン選択と組み合わせた画像トークン補償器（image token compensator）を提案します。 exttt{ToC3D} とは異なり、提案手法はViTバックボーン内で動的な層ごとのトークン選択を可能にします。さらに、提案するモジュールのみを学習するパラメータ効率の高い微調整戦略を導入し、微調整対象のパラメータ数を $300$ million（M）超からわずか $1.6$ Mへと削減します。大規模NuScenesデータセットにおける、3つのマルチビュー3D物体検出アプローチでの実験結果は、提案手法が計算量（GFLOPs）を $48\%$ ... $55\%$ 、推論レイテンシ（ exttt{NVIDIA-GV100} GPU上）を $9\%$ ... $25\%$ 減少させながら、平均適合率（mean average precision）を絶対値で $1.0\%$ ... $2.8\%$ 改善し、さらにNuScenes検出スコアを絶対値で $0.4\%$ ... $1.2\%$ 改善することを示しています。これは、これまでの最先端である exttt{ToC3D} と比較した場合です。