ICR-Drive:エンドツーエンドの言語駆動自動運転における命令反実仮想頑健性
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンドツーエンドの言語条件付き自動運転エージェントに対する命令反実仮想頑健性を測定するための診断フレームワーク「ICR-Drive」を提案する。
- 言語の摂動が性能に与える影響を評価するために、4つの系統(言い換え、曖昧さ、ノイズ、誤導)にわたって命令のバリアントを生成する(目標と矛盾する内容や、権威付けされた文言を含む)。
- CARLAにおける制御されたリプレイを、シミュレータ設定およびシードを一致させたうえで用いることで、環境のランダム性ではなく、命令文言そのものに起因する性能変化を切り分ける。
- LMDriveおよびBEVDriverでの結果では、小さな命令の変更でも大きな性能低下と異なる失敗モードが生じ得ることが示され、安全に重大な文脈における身体性を備えた基盤モデルには信頼性のギャップがあることが強調される。
