階層型ドライビングVQAにおけるクロスステージ整合性:明示的ベースラインと学習済みゲート付きコンテキスト・プロジェクタ
arXiv cs.AI / 2026/4/27
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、階層型ドライビング視覚質問応答(GVQA)において、計画(planning)の判断が先行する知覚(perception)に整合するようにする「クロスステージ・コンテキスト受け渡し」を、DriveLM-nuScenes上で検証する。
- 明示的で学習不要の手法では、ドメイン適応済み4B VLMに対して3つのプロンプトベース条件付け戦略を比較し、NLIコントラディクションを最大42.6%削減して強力なベースラインを示す。
- 暗黙的アプローチでは、あるステージの隠れ状態表現を次ステージへ引き継ぐ学習済みゲート付きコンテキスト・プロジェクタを導入し、ステージ別QLoRAアダプタとともに学習する(更新パラメータは約0.5%のみ)。
- 暗黙的手法は、計画ステージのNLIコントラディクションを34%(統計的に有意、p<0.05)減らし、クロスステージのエンタイルメントを50%増やすなどの改善をもたらし、計画言語のCIDErは+30.3%となる。
- 著者らは、暗黙的セットアップで運転ドメインの事前学習が不足していることが語彙・構造の一貫性低下につながっている点を指摘し、次の改善として十分なドメイン適応を組み合わせることを示唆する。




