リスク制御可能なマルチビュー拡散モデルによる運転シナリオ生成

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

RiskMV-DPOは、ターゲットリスクレベルと現実世界に根ざしたリスクモデリングを組み合わせ、拡散ベースの動画生成を条件付けすることで、物理情報に基づくリスク制御可能なマルチビュー運転シナリオ生成を実現する一般的なパイプラインです。
このアプローチは、幾何-外観整合モジュールと、モーション対応の領域認識型直接嗜好最適化（RA-DPO）戦略を追加し、空間・時間の一貫性を確保し、動的領域に学習を集中させます。
nuScenesデータセット上で、RiskMV-DPOは多様な長尾シナリオを自由に生成し、高い視覚品質を維持しつつ、3D検出のmAPを18.17から30.50へ向上させ、FIDを15.70へ低減します。
この研究は、ワールドモデルの役割を受動的な環境予測から積極的でリスク制御可能な合成へと移行させ、安全志向の具現化知能開発のためのスケーラブルなツールチェーンを提供します。

要旨: 安全性が要求される運転シナリオの生成は、自動運転システムを評価・改善する上で極めて重要ですが、長尾分布に属するリスクの高い状況は現実世界のデータではめったに観測されず、手動によるシナリオ設計だけで特定することは難しいです。既存の生成手法は通常、リスクを事後のラベルとして扱い、マルチビューの運転シーンにおける幾何学的一貫性を維持するのに苦労します。我々は RiskMV-DPO を提案します。これは、物理情報にもとづくリスク制御可能なマルチビューシナリオ生成の一般的で体系的なパイプラインです。ターゲットリスクレベルを現実世界に根ざしたリスクモデリングと統合することで、拡散ベースの動画発生器に、幾何学的なアンカーとして機能する、多様で高リスクな動的軌道を自動的に合成します。空間的・時間的な一貫性と幾何学的忠実性を確保するために、幾何-外観整合モジュールと、運動感知マスキングを用いた領域認識型直接嗜好最適化（RA-DPO）戦略を導入し、局在化した動的領域に学習を集中させます。nuScenesデータセットでの実験により、RiskMV-DPO は多様な長尾シナリオの広いスペクトラムを自由に生成できると同時に、最先端の視覚品質を維持し、3D検出のmAPを18.17から30.50へ向上させ、FID を 15.70 へ低減します。我々の研究は、ワールドモデルの役割を受動的な環境予測から積極的でリスク制御可能な合成へと移行させ、安全指向の具現化知能の開発のためのスケーラブルなツールチェーンを提供します。

言語処理学会第32回年次大会(NLP2026) 参加報告

Qiita

Sakana Chatが登場しました

note

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

note

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

note

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

note

リスク制御可能なマルチビュー拡散モデルによる運転シナリオ生成

要点

関連記事

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana Chatが登場しました

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana Chatが登場しました

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

Gemini 同時 通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド