MAVEN-T: 強化学習を用いた、マルチエージェントの環境認識を備える拡張ニューラルトラジェクトリ予測

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、自動運転に向けた教師–生徒型の軌道予測フレームワークであるMAVEN-Tを提案し、複雑なマルチエージェントの意思決定を維持しつつ、リアルタイム制約を満たすことを目的とする。
  • 教師側ではハイブリッド注意機構を用い、生徒側には効率的なアーキテクチャを採用する。さらに、マルチグラニュラでの段階的蒸留に加え、適応的カリキュラム学習を組み合わせることで、知識の移転を効果的に行う。
  • 通常の蒸留における「模倣の天井(imitation ceiling)」への対処として、MAVEN-Tは強化学習を追加し、生徒が動的な環境と相互作用することで、教師由来の振る舞いを改良・最適化できるようにする。
  • NGSIMおよびhighDでの実験により、高い効率向上が報告されている。パラメータ圧縮で6.2倍、推論速度で3.7倍の高速化を達成しつつ、最先端の精度を維持する。
  • 著者らは、これにより教師モデル単独の場合よりも、計算資源の制限下での導入において、より頑健な意思決定が可能になると主張している。

Abstract

軌道予測は、自動運転システムにおける重要かつ挑戦的な要素であり、厳格なリアルタイム展開の制約を満たしながら、洗練された推論能力を必要とします。知識蒸留はモデル圧縮に有効であることが示されてきましたが、既存の手法では、特に動的なマルチエージェント状況において、複雑な意思決定能力を十分に保持できないことが多くあります。本論文では、補完的なアーキテクチャ共同設計と段階的蒸留によって最先端の軌道予測を達成する教師—生徒フレームワーク MAVEN-T を提案します。教師は最大の表現能力を得るためのハイブリッド注意機構を用い、生徒は展開に最適化された効率的なアーキテクチャを用います。知識の伝達は、性能に応じて複雑さを動的に調整する適応カリキュラム学習と組み合わせた多粒度蒸留により行います。さらに重要なのは、本フレームワークが強化学習を取り入れることで、従来の蒸留における模倣の天井(イミテーション・セーリング)を克服し、生徒が動的な環境との相互作用を通じて教師の知識を検証し、洗練し、最適化できるようにする点です。これにより、教師自身よりも堅牢な意思決定が可能になる可能性があります。NGSIM および highD データセットでの大規模な実験により、最先端の精度を維持しつつ、6.2倍のパラメータ圧縮と3.7倍の推論速度向上を示し、資源制約の下で洗練された推論モデルを展開するための新しいパラダイムを確立します。