ST-Prune:自動運転向けビジョン・ランゲージモデルのための、学習不要な時空間トークン・プルーニング

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • ST-Pruneは、自動運転で使われるビジョン・ランゲージモデルに対し、マルチビュー・マルチフレーム入力の大きな計算コストを抑えることを目的とした、学習不要のプラグアンドプレイ型トークン・プルーニング手法です。
  • Motion-aware Temporal Pruning(MTP)とRing-view Spatial Pruning(RSP)を組み合わせ、従来の手法がフレームやビューを個別に扱うことで活かせなかった時空間の冗長性を削減します。
  • MTPは、多様性選択の目的関数の中で動きの揺らぎ(motion volatility)と時間的な新しさ(temporal recency)をソフト制約として扱い、静的な過去の背景よりも動的な軌跡と直近の内容を優先して保持します。
  • RSPは、リングビュー(円周配置)カメラの幾何を用いて左右のクロスビュー類似性をペナルティし、重複投影や、時間方向のプルーニングだけでは残りやすい残存背景を抑えます。
  • 4つのベンチマークで検証した結果、ST-Pruneは学習不要のトークン・プルーニングで新たな最先端性能を達成し、90%のトークン削減でも指標によってはフルモデルを上回る近いロスレス性能を示しつつ、推論速度は既存手法と同程度に保たれます。

要旨: 視覚-言語モデル(VLM)は自動運転システムにおいて中核となっている一方で、マルチビューのカメラ入力やマルチフレームの動画入力による膨大な計算オーバーヘッドのため、その実運用は大きくボトルネック化されています。既存のトークン枝刈り手法は主として単一画像入力向けに設計されており、各フレームや各ビューをそれぞれ独立に扱うため、自動運転シナリオに内在する時空間的な冗長性を活用できていません。このギャップを埋めるために、本研究ではST-Pruneを提案します。ST-Pruneは、学習不要の、プラグ・アンド・プレイ型の枠組みであり、2つの補完的なモジュールで構成されます:Motion-aware Temporal Pruning(MTP)とRing-view Spatial Pruning(RSP)です。MTPは、運動の不安定さと時間的な新しさを、多様性選択の目的関数内でソフトな制約としてエンコードすることで、時間的冗長性に対処し、静的な過去の背景よりも動的な軌跡と現在フレームの内容を優先します。さらにRSPは、リングビューのカメラ幾何を活用して、左右のビュー間の類似性を抑制することで空間的冗長性を解決し、重複した投影や、時間的枝刈りだけでは抑えきれない残存背景を取り除きます。この2つのモジュールを合わせることで、厳格な圧縮のもとで重要なシーン情報を保持する、完全な時空間枝刈りのプロセスが構成されます。知覚・予測・計画にまたがる4つのベンチマークで検証した結果、ST-Pruneは学習不要のトークン枝刈りにおいて新たな最先端性能を確立します。特に、90%のトークン削減でも、ST-Pruneは一部の指標においてフルモデルのベースラインを上回るほど、損失にほぼ匹敵する性能を達成し、推論速度も既存の枝刈り手法と同程度に維持しています。