要旨:ビジョン・ランゲージ・モデル(VLMs)は、画像やテキストを含む文書のデータスナップショットを用いて訓練されます。彼らの訓練データと評価ベンチマークは通常静的で、事実知識を時間的不変として暗黙のうちに扱います。しかし、現実世界の事実は本質的に時間依存性があり、不規則かつ周期的な変化の影響を受けるため、モデルの予測が時代遅れになります。私たちはV-DyKnowを提示します。これは、VLMsにおける時間依存的な事実知識を評価する視覚的な動的知識ベンチマークです。V-DyKnowを用いて、クローズドソースおよびオープンソースのVLMsをベンチマークし、a) モダリティ間および入力の摂動にわたるモデル応答の信頼性(正確性と一貫性)、b) モダリティ横断での知識更新のための知識編集とマルチモーダルRAG手法の有効性、c) データ分析と機構的分析を通じた、時代遅れの予測の原因を分析します。私たちの結果は、VLMsが頻繁に時代遅れの事実を出力し、事前訓練段階で使用された古いスナップショットを反映していることを示しています。事実の信頼性は、エンティティが正しく認識されていても、テキスト情報から視覚情報へと低下します。さらに、既存のアライメント手法はモダリティ間でモデルの知識を一貫して更新することに失敗します。これらの発見は、現在のVLMsがモダリティ間で時間依存的な知識を取得・更新する方法における根本的な制限を浮き彫りにします。ベンチマーク、コード、評価データを公開します。
V-DyKnow: 視覚言語モデルにおける時機依存知識の動的ベンチマーク
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- V-DyKnow は、マルチモーダル入力(画像とテキスト)にわたる時機依存の事実知識を評価するための、視覚と言語の統合モデル向けの動的知識ベンチマークを提示します。
- 本研究は、クローズドソースおよびオープンソースのVLMをベンチマークし、モダリティ間および入力摂動に対する応答の信頼性、さらに知識編集とマルチモーダルRAG手法による知識更新の有効性を分析します。
- 研究結果は、静的なトレーニング時点のスナップショットが原因でVLMが頻繁に時代遅れの知識を出力することを示しており、事実の信頼性はテキスト情報から視覚的刺激へと低下します。
- 著者らは、ベンチマーク、コード、および評価データを公開し、VLMがモダリティ間で時機依存の知識をどのように獲得・更新するかを広範な研究・評価が可能になるようにします。



