動的トークン選択と微調整による効率的マルチビュー3D物体検出

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチビュー3D物体検出で一般的に用いられる、大規模な事前学習済みViTベースの基盤モデルをバックボーンとすることによる高い計算コストという課題に取り組む。
  • 画像トークン補償器と動的な層ごとのトークン選択を組み合わせ、各層で固定のトークン選択比率を用いるToC3Dを上回る性能を目指す新しい手法を提案する。
  • 提案手法では、パラメータ効率の高い微調整を導入し、提案モジュールのみを学習することで、微調整パラメータ数をフルのエンドツーエンドViT再学習に対して300M超から約1.6Mへと削減する。
  • NuScenesデータセットに対して、3つのマルチビュー3D検出アプローチで実験を行った結果、ToC3Dと比べて大きな効率改善(NVIDIA GV100上でGFLOPsが48–55%減、推論レイテンシが9–25%低下)に加え、精度向上(mAPが1.0–2.8%、NuScenes検出スコアが0.4–1.2%向上)を示す。

要旨: 既存のマルチビュー3次元(3D)物体検出アプローチの多くは、大規模に事前学習されたビジョントランスフォーマ(ViT)ベースの基盤モデルをバックボーンとして広く採用しており、計算が複雑になっています。この問題に対処するため、現状の最先端(SOTA)である効率的なマルチビューViTベースの3D物体検出手法 exttt{ToC3D} は、自己運動(ego-motion)に基づく関連トークン選択を用います。しかし、次の2つの重要な制限があります: (1)固定された層ごとの個別トークン選択比率により、学習時および推論時の計算効率が制限される。(2)マルチビュー3D物体検出手法のために、ViTバックボーンを全エンドツーエンドで再学習する必要がある。本研究では、マルチビュー3D物体検出を加速するために、ViTバックボーン向けのトークン選択と組み合わせた画像トークン補償器(image token compensator)を提案します。 exttt{ToC3D} とは異なり、提案手法はViTバックボーン内で動的な層ごとのトークン選択を可能にします。さらに、提案するモジュールのみを学習するパラメータ効率の高い微調整戦略を導入し、微調整対象のパラメータ数を300 million(M)超からわずか1.6 Mへと削減します。大規模NuScenesデータセットにおける、3つのマルチビュー3D物体検出アプローチでの実験結果は、提案手法が計算量(GFLOPs)を48\% ... 55\%、推論レイテンシ( exttt{NVIDIA-GV100} GPU上)を9\% ... 25\% 減少させながら、平均適合率(mean average precision)を絶対値で1.0\% ... 2.8\% 改善し、さらにNuScenes検出スコアを絶対値で0.4\% ... 1.2\% 改善することを示しています。これは、これまでの最先端である exttt{ToC3D} と比較した場合です。