人間のような推論のための信念（ベリーフ）対応VLMモデル

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の視覚言語モデルが観測可能な状態から意図を推論している一方で、明示的な信念（ベリーフ）追跡がないため、動的で長い時間範囲にわたる状況での汎化が難しいと主張する。
別個の明示的信念モデルを学習するのではなく、検索（リトリーバル）ベースのベクトルメモリに多様なモーダル文脈を格納し、それを用いて人間に近い信念を近似する「信念対応VLM」フレームワークを提案する。
信念に関連する文脈として検索で得た情報をVLMへ入力し、推論を改善する。さらに、意思決定はモデルの潜在空間上での強化学習により最適化する。
VQAデータセット（HD-EPICを含む）での実験により、ゼロショットのベースラインに対して一貫した改善が示され、信念を意識した推論が性能を高めることが示唆される。
全体として、本研究は、人間のような推論を目指すVLM/VLAシステムにとって、信念の更新と長期的な意図の捉え直しが重要な欠落要素であると位置づけている。

AI-SCHOLAR

日経XTECH

日経XTECH

GIGAZINE

Innovatopia