運転支援におけるVLMの信頼性の検証：不整合な応答から根拠に基づく時間的推論まで

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本研究は、運転支援として使用されるビジョン・ランゲージモデル（VLM）の信頼性を評価し、観察情報に基づく一貫性のある時間的根拠に基づいた応答が可能かどうかを検証しています。
研究では、わずかな入力の変化による応答の不整合と、連続するイベントを正しく予測・整合できない時間的推論の限界という、VLMの信頼性を妨げる2つの主要課題を特定しています。
強力な視覚理解を持つモデルでさえ、真の時間的推論よりも記憶された訓練パターンに大きく依存しており、意思決定の正確性に影響を与えていることが明らかになりました。
将来のシーン推論能力をより適切に評価するために、本研究ではFutureVQAという人手注釈付きデータセットを導入し、明示的な時間的監視なしで一貫性と時間的推論の両方を向上させるチェーン・オブ・ソート推論を用いた自己教師ありファインチューニング手法を提案しています。
本研究は、自動運転タスクにおける現行VLMの限界に重要な洞察を与え、時間的推論能力を向上させる実用的な方法を提示することで、信頼性の高い運転支援技術の進展に貢献します。

コンピュータサイエンス > コンピュータビジョンとパターン認識

arXiv:2603.09512 (cs)

[2026年3月10日に投稿]

題目:運転用VLMの信頼性を検証する：一貫性のない応答から、時間的に根拠づけられた推論へ

著者:Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani

Chun-Peng Changおよび他3名の著者による「運転用VLMの信頼性を検証する：一貫性のない応答から、時間的に根拠づけられた推論へ」という題目の論文のPDFを表示

PDFを表示 HTML（実験的）

要旨:信頼できる運転支援アシスタントは、観測された情報に基づく時間的に根拠づけられた推論によって、一貫した応答を提供するべきである。本研究では、Vision-Language Models（VLM）を運転アシスタントとして適用した場合に、将来の結果が現在の観測によってどのように形作られるのかを理解し、応答を一貫して生成できるのか、それとも時間的に根拠づけられた推論をせず、学習中に記憶されたパターンを反映するだけなのかを調査する。自動運転にVLMを統合する最近の取り組みはあるものの、先行研究では通常、シーン理解や指示生成が主に強調され、強い視覚的解釈が自然に一貫した将来推論を可能にし、その結果として信頼できる意思決定が保証される、という暗黙の仮定が置かれている。この主張を我々は批判的に検討する。本設定においてVLMの信頼性を制限する主要な課題は2つに焦点を当てる。1つ目は応答の不整合であり、小さな入力の擾乱が異なる答えを生む、あるいは場合によっては応答がほぼランダムな推測へと退化してしまう。2つ目は時間的推論の不足であり、モデルが推論を行って現在の観測から順次的な出来事を整合させることに失敗し、その結果として誤った、あるいは相互に矛盾する応答が生じることが多い。さらに、強い視覚理解を持つモデルが、時間的推論を必要とするタスクで必ずしも最良の性能を示すわけではないことを見出し、時間的ダイナミクスをモデル化するよりも、事前学習されたパターンに過度に依存する傾向があることが示唆される。これらの問題に対処するため、既存の評価手法を採用し、将来シーンの推論を評価するために特化して設計された、人手による注釈付きベンチマークデータセットであるFutureVQAを導入する。加えて、時間ラベルを必要とせず、Chain-of-Thought推論を用いたシンプルだが効果的な自己教師ありのチューニング手法を提案し、両方の側面、すなわち一貫性と時間的推論の改善を実現する。

分野:	コンピュータビジョンとパターン認識 (cs.CV)
次の形式で引用:	arXiv:2603.09512 [cs.CV]
	（この版では、 arXiv:2603.09512v1 [cs.CV]）
	https://doi.org/10.48550/arXiv.2603.09512 詳しく学ぶためにフォーカス DataCite経由で発行されたarXivのDOI

投稿履歴

差出人: Chun-Peng Chang [メールを表示]
[v1] 2026年3月10日(火) 11:12:28 UTC（10,134 KB）

全文リンク:

論文へのアクセス:

PDFを表示
HTML（実験的）
TeXソース

ライセンスを表示

現在のブラウズ文脈:

cs.CV

返却形式: {"translated": "翻訳されたHTML"}

< prev | next >

new | recent | 2026-03

次の方法で閲覧するには：

参考文献 & 引用

BibTeX 引用のエクスポート読み込み中...

BibTeX 形式の引用

データ提供元：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え

書誌エクスプローラー (エクスプローラーとは？)

Connected Papers の切り替え

Connected Papers (Connected Papers とは？)

Litmaps の切り替え

Litmaps (Litmaps とは？)

scite.ai の切り替え

scite スマート引用 (スマート引用とは？)

コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv の切り替え

alphaXiv (alphaXiv とは？)

Links to Code Toggle

論文向け CatalyzeX コードファインダー (CatalyzeX とは？)

DagsHub トグル

DagsHub (DagsHub とは？)

GotitPub トグル

Gotit.pub (GotitPub とは？)

Huggingface トグル

Hugging Face (Huggingface とは？)

Links to Code Toggle

Papers with Code (Papers with Code とは？)

ScienceCast トグル

ScienceCast (ScienceCast とは？)

デモ

Replicate トグル

Replicate (Replicate とは？)

Spaces トグル

Hugging Face Spaces (Spaces とは？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは？)

レコメンダーと検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは？)

Core recommender トグル

CORE Recommender (CORE とは？)

著者
掲載先
機関
トピック

About arXivLabs

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織は、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、またそれらを尊重してきました。arXiv はこれらの価値観にコミットしており、それに従うパートナーとだけ協業します。

arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか？ arXivLabs について詳しく知る。

返却形式: {"translated": "翻訳されたHTML"}

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

運転支援におけるVLMの信頼性の検証：不整合な応答から根拠に基づく時間的推論まで

要点

コンピュータサイエンス > コンピュータビジョンとパターン認識

題目:運転用VLMの信頼性を検証する：一貫性のない応答から、時間的に根拠づけられた推論へ

投稿履歴

論文へのアクセス:

参考文献 & 引用

BibTeX 形式の引用

ブックマーク

書誌および引用ツール

この記事に関連付けられたコード、データ、メディア

デモ

レコメンダーと検索ツール

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer