階層型ドライビングVQAにおけるクロスステージ整合性:明示的ベースラインと学習済みゲート付きコンテキスト・プロジェクタ

arXiv cs.AI / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、階層型ドライビング視覚質問応答(GVQA)において、計画(planning)の判断が先行する知覚(perception)に整合するようにする「クロスステージ・コンテキスト受け渡し」を、DriveLM-nuScenes上で検証する。
  • 明示的で学習不要の手法では、ドメイン適応済み4B VLMに対して3つのプロンプトベース条件付け戦略を比較し、NLIコントラディクションを最大42.6%削減して強力なベースラインを示す。
  • 暗黙的アプローチでは、あるステージの隠れ状態表現を次ステージへ引き継ぐ学習済みゲート付きコンテキスト・プロジェクタを導入し、ステージ別QLoRAアダプタとともに学習する(更新パラメータは約0.5%のみ)。
  • 暗黙的手法は、計画ステージのNLIコントラディクションを34%(統計的に有意、p<0.05)減らし、クロスステージのエンタイルメントを50%増やすなどの改善をもたらし、計画言語のCIDErは+30.3%となる。
  • 著者らは、暗黙的セットアップで運転ドメインの事前学習が不足していることが語彙・構造の一貫性低下につながっている点を指摘し、次の改善として十分なドメイン適応を組み合わせることを示唆する。

Abstract

自動運転のためのグラフ視覚質問応答(GVQA)は、推論を順序立てられた段階、すなわち知覚(Perception)、予測(Prediction)、計画(Planning)に整理し、計画の意思決定はモデル自身の知覚と整合的であるべきです。私たちは、2つの補完的な仕組みによって、DriveLM-nuScenesにおける段階をまたいだ文脈の受け渡し(cross-stage context passing)を比較する研究を提示します。明示的(explicit)なバリアントでは、追加学習なしでドメイン適応した4B VLM(Mini-InternVL2-4B-DA-DriveLM)に対し、3つのプロンプトベースの条件付け戦略を評価し、NLIの矛盾を最大42.6%削減し、強力なゼロ学習のベースラインを確立します。暗黙的(implicit)なバリアントでは、ゲート付き文脈プロジェクタを導入します。これは、ある段階から隠れ状態ベクトルを抽出し、正規化されたゲート付き射影を次の段階の入力埋め込みに注入するものです。これらのプロジェクタは、一般用途の8B VLM(InternVL3-8B-Instruct)に対して、段階固有のQLoRAアダプタと共同で学習され、更新するパラメータは約0.5%のみです。暗黙的バリアントは、計画段階におけるNLIの矛盾を統計的に有意な34%削減(ブートストラップ95%CI、p < 0.05)し、さらに、混在する言語出力を考慮するために多言語NLI分類器で評価したところ、段階をまたいだ含意(cross-stage entailment)を50%増加させます。計画言語の品質も向上します(CIDEr +30.3%)が、自動運転ドメインでの事前学習がないため、語彙の一致度や構造の整合性は低下します。2つのバリアントは異なるベースモデルを用いているため、補完的なケーススタディとして示します。すなわち、明示的な文脈の受け渡しは表面的整合性に対する強力なトレーニング不要のベースラインを提供し、一方で暗黙的なゲート付き射影は計画段階における重要な意味的向上をもたらします。これは、全スペクトルの改善のための次なる要素として、ドメイン適応が有力であることを示唆しています。