要旨: 視覚言語モデル(VLM)は静的な画像理解において大きな進歩を遂げてきましたが、時空間的推論における重要な課題に引き続き直面しています。主要なボトルネックは「マルチイメージ推論における幻覚(multi-image reasoning hallucination)」であり、順方向と逆方向の時間クエリの間で大幅な性能低下が生じることが、真の因果的理解ではなく表面的な近道への依存を示唆します。これを緩和するために、まず、複雑な推論を詳細な時空間ステップと決定的な判断に分解する新しいChain-of-Thought(CoT)データセットを開発します。これに基づいて、段階的な学習フレームワークを提案します。このフレームワークは、まずCoTデータセットでの教師あり事前学習を行い、論理構造を植え付け、その後、より広い汎化のためにスケーラブルな弱教師付きデータで微調整します。実験の結果、このアプローチはバックボーンの精度を向上させるだけでなく、順方向と逆方向の性能ギャップを70以上からわずか6.53へと大幅に削減できることを示します。これは、本手法が本物の動的推論を獲得し、現在のVLMに内在する時間的バイアスを低減できることを裏付けています。
自己進行型トレーニング戦略による、身体化推論における時空間ホールシネーションへの対抗:視覚言語モデルのための
arXiv cs.AI / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、身体化された時空間推論における視覚言語モデル(VLM)の主要な制約に取り組み、「複数画像による推論ホールシネーション」に焦点を当てる。これは、ショートカット学習により、時間方向の順方向と逆方向のクエリで結果が大きく分岐してしまう現象である。
- 複雑な時空間推論を、明確な時空間的判断を伴う段階的な構成要素へと分解する、新しいChain-of-Thought(CoT)データセットを提案する。
- 著者らは、進行的トレーニング戦略を提案する。具体的には、CoTデータセットでの教師あり事前学習により論理/時空間構造を確立した後、弱いラベル付きデータで微調整して一般化性能を高める。
- 実験の結果、バックボーンの精度が向上し、順方向と逆方向の性能ギャップが70%超から6.53%へと劇的に低減することが示された。これは、より本物に近い動的推論と、時間的バイアスの低減を意味する。



