運転支援におけるVLMの信頼性の検証:不整合な応答から根拠に基づく時間的推論まで

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本研究は、運転支援として使用されるビジョン・ランゲージモデル(VLM)の信頼性を評価し、観察情報に基づく一貫性のある時間的根拠に基づいた応答が可能かどうかを検証しています。
  • 研究では、わずかな入力の変化による応答の不整合と、連続するイベントを正しく予測・整合できない時間的推論の限界という、VLMの信頼性を妨げる2つの主要課題を特定しています。
  • 強力な視覚理解を持つモデルでさえ、真の時間的推論よりも記憶された訓練パターンに大きく依存しており、意思決定の正確性に影響を与えていることが明らかになりました。
  • 将来のシーン推論能力をより適切に評価するために、本研究ではFutureVQAという人手注釈付きデータセットを導入し、明示的な時間的監視なしで一貫性と時間的推論の両方を向上させるチェーン・オブ・ソート推論を用いた自己教師ありファインチューニング手法を提案しています。
  • 本研究は、自動運転タスクにおける現行VLMの限界に重要な洞察を与え、時間的推論能力を向上させる実用的な方法を提示することで、信頼性の高い運転支援技術の進展に貢献します。

コンピュータサイエンス > コンピュータビジョンとパターン認識

arXiv:2603.09512 (cs)
[2026年3月10日に投稿]

題目:運転用VLMの信頼性を検証する:一貫性のない応答から、時間的に根拠づけられた推論へ

Chun-Peng Changおよび他3名の著者による「運転用VLMの信頼性を検証する:一貫性のない応答から、時間的に根拠づけられた推論へ」という題目の論文のPDFを表示
PDFを表示 HTML(実験的)
要旨:信頼できる運転支援アシスタントは、観測された情報に基づく時間的に根拠づけられた推論によって、一貫した応答を提供するべきである。本研究では、Vision-Language Models(VLM)を運転アシスタントとして適用した場合に、将来の結果が現在の観測によってどのように形作られるのかを理解し、応答を一貫して生成できるのか、それとも時間的に根拠づけられた推論をせず、学習中に記憶されたパターンを反映するだけなのかを調査する。自動運転にVLMを統合する最近の取り組みはあるものの、先行研究では通常、シーン理解や指示生成が主に強調され、強い視覚的解釈が自然に一貫した将来推論を可能にし、その結果として信頼できる意思決定が保証される、という暗黙の仮定が置かれている。この主張を我々は批判的に検討する。本設定においてVLMの信頼性を制限する主要な課題は2つに焦点を当てる。1つ目は応答の不整合であり、小さな入力の擾乱が異なる答えを生む、あるいは場合によっては応答がほぼランダムな推測へと退化してしまう。2つ目は時間的推論の不足であり、モデルが推論を行って現在の観測から順次的な出来事を整合させることに失敗し、その結果として誤った、あるいは相互に矛盾する応答が生じることが多い。さらに、強い視覚理解を持つモデルが、時間的推論を必要とするタスクで必ずしも最良の性能を示すわけではないことを見出し、時間的ダイナミクスをモデル化するよりも、事前学習されたパターンに過度に依存する傾向があることが示唆される。これらの問題に対処するため、既存の評価手法を採用し、将来シーンの推論を評価するために特化して設計された、人手による注釈付きベンチマークデータセットであるFutureVQAを導入する。加えて、時間ラベルを必要とせず、Chain-of-Thought推論を用いたシンプルだが効果的な自己教師ありのチューニング手法を提案し、両方の側面、すなわち一貫性と時間的推論の改善を実現する。
分野: コンピュータビジョンとパターン認識 (cs.CV)
次の形式で引用: arXiv:2603.09512 [cs.CV]
  (この版では、 arXiv:2603.09512v1 [cs.CV]
  https://doi.org/10.48550/arXiv.2603.09512
詳しく学ぶためにフォーカス
DataCite経由で発行されたarXivのDOI

投稿履歴

差出人: Chun-Peng Chang [メールを表示]
[v1] 2026年3月10日(火) 11:12:28 UTC(10,134 KB)
全文リンク:

論文へのアクセス:

    Chun-Peng Changおよび他3名の著者による「運転用VLMの信頼性を検証する:一貫性のない応答から、時間的に根拠づけられた推論へ」という題目の論文のPDFを表示
  • PDFを表示
  • HTML(実験的)
  • TeXソース
現在のブラウズ文脈:
cs.CV
返却形式: {"translated": "翻訳されたHTML"}
< prev   |   next >
次の方法で閲覧するには:
cs
BibTeX 引用のエクスポート 読み込み中...

BibTeX 形式の引用

×
データ提供元:

ブックマーク

BibSonomy ロゴ Reddit ロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers の切り替え
Connected Papers (Connected Papers とは?)
Litmaps の切り替え
Litmaps (Litmaps とは?)
scite.ai の切り替え
scite スマート引用 (スマート引用とは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv の切り替え
alphaXiv (alphaXiv とは?)
Links to Code Toggle
論文向け CatalyzeX コードファインダー (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
Links to Code Toggle
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ

デモ

Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
関連論文

レコメンダーと検索ツール

Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core recommender トグル
CORE Recommender (CORE とは?)
About arXivLabs

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織は、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、またそれらを尊重してきました。arXiv はこれらの価値観にコミットしており、それに従うパートナーとだけ協業します。

arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る

返却形式: {"translated": "翻訳されたHTML"}