V-DyKnow: 視覚言語モデルにおける時機依存知識の動的ベンチマーク

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

V-DyKnow は、マルチモーダル入力（画像とテキスト）にわたる時機依存の事実知識を評価するための、視覚と言語の統合モデル向けの動的知識ベンチマークを提示します。
本研究は、クローズドソースおよびオープンソースのVLMをベンチマークし、モダリティ間および入力摂動に対する応答の信頼性、さらに知識編集とマルチモーダルRAG手法による知識更新の有効性を分析します。
研究結果は、静的なトレーニング時点のスナップショットが原因でVLMが頻繁に時代遅れの知識を出力することを示しており、事実の信頼性はテキスト情報から視覚的刺激へと低下します。
著者らは、ベンチマーク、コード、および評価データを公開し、VLMがモダリティ間で時機依存の知識をどのように獲得・更新するかを広範な研究・評価が可能になるようにします。

要旨：ビジョン・ランゲージ・モデル（VLMs）は、画像やテキストを含む文書のデータスナップショットを用いて訓練されます。彼らの訓練データと評価ベンチマークは通常静的で、事実知識を時間的不変として暗黙のうちに扱います。しかし、現実世界の事実は本質的に時間依存性があり、不規則かつ周期的な変化の影響を受けるため、モデルの予測が時代遅れになります。私たちはV-DyKnowを提示します。これは、VLMsにおける時間依存的な事実知識を評価する視覚的な動的知識ベンチマークです。V-DyKnowを用いて、クローズドソースおよびオープンソースのVLMsをベンチマークし、a) モダリティ間および入力の摂動にわたるモデル応答の信頼性（正確性と一貫性）、b) モダリティ横断での知識更新のための知識編集とマルチモーダルRAG手法の有効性、c) データ分析と機構的分析を通じた、時代遅れの予測の原因を分析します。私たちの結果は、VLMsが頻繁に時代遅れの事実を出力し、事前訓練段階で使用された古いスナップショットを反映していることを示しています。事実の信頼性は、エンティティが正しく認識されていても、テキスト情報から視覚情報へと低下します。さらに、既存のアライメント手法はモダリティ間でモデルの知識を一貫して更新することに失敗します。これらの発見は、現在のVLMsがモダリティ間で時間依存的な知識を取得・更新する方法における根本的な制限を浮き彫りにします。ベンチマーク、コード、評価データを公開します。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

V-DyKnow: 視覚言語モデルにおける時機依存知識の動的ベンチマーク

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer