コンピュータサイエンス > コンピュータビジョンとパターン認識
arXiv:2603.09512 (cs)
[2026年3月10日に投稿]
題目:運転用VLMの信頼性を検証する:一貫性のない応答から、時間的に根拠づけられた推論へ
Chun-Peng Changおよび他3名の著者による「運転用VLMの信頼性を検証する:一貫性のない応答から、時間的に根拠づけられた推論へ」という題目の論文のPDFを表示
PDFを表示
HTML(実験的)
要旨:信頼できる運転支援アシスタントは、観測された情報に基づく時間的に根拠づけられた推論によって、一貫した応答を提供するべきである。本研究では、Vision-Language Models(VLM)を運転アシスタントとして適用した場合に、将来の結果が現在の観測によってどのように形作られるのかを理解し、応答を一貫して生成できるのか、それとも時間的に根拠づけられた推論をせず、学習中に記憶されたパターンを反映するだけなのかを調査する。自動運転にVLMを統合する最近の取り組みはあるものの、先行研究では通常、シーン理解や指示生成が主に強調され、強い視覚的解釈が自然に一貫した将来推論を可能にし、その結果として信頼できる意思決定が保証される、という暗黙の仮定が置かれている。この主張を我々は批判的に検討する。本設定においてVLMの信頼性を制限する主要な課題は2つに焦点を当てる。1つ目は応答の不整合であり、小さな入力の擾乱が異なる答えを生む、あるいは場合によっては応答がほぼランダムな推測へと退化してしまう。2つ目は時間的推論の不足であり、モデルが推論を行って現在の観測から順次的な出来事を整合させることに失敗し、その結果として誤った、あるいは相互に矛盾する応答が生じることが多い。さらに、強い視覚理解を持つモデルが、時間的推論を必要とするタスクで必ずしも最良の性能を示すわけではないことを見出し、時間的ダイナミクスをモデル化するよりも、事前学習されたパターンに過度に依存する傾向があることが示唆される。これらの問題に対処するため、既存の評価手法を採用し、将来シーンの推論を評価するために特化して設計された、人手による注釈付きベンチマークデータセットであるFutureVQAを導入する。加えて、時間ラベルを必要とせず、Chain-of-Thought推論を用いたシンプルだが効果的な自己教師ありのチューニング手法を提案し、両方の側面、すなわち一貫性と時間的推論の改善を実現する。
| 分野: | コンピュータビジョンとパターン認識 (cs.CV) |
| 次の形式で引用: | arXiv:2603.09512 [cs.CV] |
| (この版では、 arXiv:2603.09512v1 [cs.CV]) | |
| https://doi.org/10.48550/arXiv.2603.09512
詳しく学ぶためにフォーカス
DataCite経由で発行されたarXivのDOI
|
現在のブラウズ文脈:
cs.CV
返却形式: {"translated": "翻訳されたHTML"}
次の方法で閲覧するには:
参考文献 & 引用
BibTeX 引用のエクスポート
読み込み中...
書誌ツール
コード、データ、メディア
デモ
関連論文
About arXivLabs
書誌および引用ツール
書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers の切り替え
Connected Papers (Connected Papers とは?)
Litmaps の切り替え
Litmaps (Litmaps とは?)
scite.ai の切り替え
scite スマート引用 (スマート引用とは?)
この記事に関連付けられたコード、データ、メディア
alphaXiv の切り替え
alphaXiv (alphaXiv とは?)
Links to Code Toggle
論文向け CatalyzeX コードファインダー (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
Links to Code Toggle
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ
Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
レコメンダーと検索ツール
Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core recommender トグル
CORE Recommender (CORE とは?)
arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト
arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするためのフレームワークです。
arXivLabs に取り組む個人および組織は、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、またそれらを尊重してきました。arXiv はこれらの価値観にコミットしており、それに従うパートナーとだけ協業します。
arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る。



