先験(プリオル)から知覚へ:物理現実に根ざすビデオ・LLM
arXiv cs.CV / 2026/5/7
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- ビデオLLMは、統計的な期待と視覚事実が食い違う場面など、細かな物理推論において体系的な弱点を示すことがある。
- 論文は、これらの誤りは知覚そのものの欠如ではなく、「Semantic Prior Dominance(意味的な事前知識の支配)」によって推論メカニズムが内部のナラティブ・スクリプトに乗っ取られることに起因すると主張している。
- Programmatic Adversarial Curriculum(PACC)は、物理法則に基づいて合成した高精度の敵対的ビデオ・データセットで、視覚上のアーティファクトと論理エラーを切り分ける。
- Visual-Anchored Reasoning Chain(VARC)は、論理判断を行う前に低レベルの視覚事実に基づいてモデルの判断を明示的に行わせる。
- 実験では、PACCを用いたLoRAのファインチューニングを行うだけで(アーキテクチャ変更なしでも)最先端モデルの物理推論能力が大きく改善されることが示された。




