自己進行型トレーニング戦略による、身体化推論における時空間ホールシネーションへの対抗：視覚言語モデルのための

arXiv cs.AI / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、身体化された時空間推論における視覚言語モデル（VLM）の主要な制約に取り組み、「複数画像による推論ホールシネーション」に焦点を当てる。これは、ショートカット学習により、時間方向の順方向と逆方向のクエリで結果が大きく分岐してしまう現象である。
複雑な時空間推論を、明確な時空間的判断を伴う段階的な構成要素へと分解する、新しいChain-of-Thought（CoT）データセットを提案する。
著者らは、進行的トレーニング戦略を提案する。具体的には、CoTデータセットでの教師あり事前学習により論理／時空間構造を確立した後、弱いラベル付きデータで微調整して一般化性能を高める。
実験の結果、バックボーンの精度が向上し、順方向と逆方向の性能ギャップが70%超から6.53%へと劇的に低減することが示された。これは、より本物に近い動的推論と、時間的バイアスの低減を意味する。

要旨: 視覚言語モデル（VLM）は静的な画像理解において大きな進歩を遂げてきましたが、時空間的推論における重要な課題に引き続き直面しています。主要なボトルネックは「マルチイメージ推論における幻覚（multi-image reasoning hallucination）」であり、順方向と逆方向の時間クエリの間で大幅な性能低下が生じることが、真の因果的理解ではなく表面的な近道への依存を示唆します。これを緩和するために、まず、複雑な推論を詳細な時空間ステップと決定的な判断に分解する新しいChain-of-Thought（CoT）データセットを開発します。これに基づいて、段階的な学習フレームワークを提案します。このフレームワークは、まずCoTデータセットでの教師あり事前学習を行い、論理構造を植え付け、その後、より広い汎化のためにスケーラブルな弱教師付きデータで微調整します。実験の結果、このアプローチはバックボーンの精度を向上させるだけでなく、順方向と逆方向の性能ギャップを70以上からわずか6.53へと大幅に削減できることを示します。これは、本手法が本物の動的推論を獲得し、現在のVLMに内在する時間的バイアスを低減できることを裏付けています。

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

AI-SCHOLAR

フィジカルAIの次、「プロテインAI」

日経XTECH

自分のPCで簡単にAIを動かせる「Ollama」には多数の問題点があり、llama.cppを使った方が良いという意見

GIGAZINE

Log2Motion：スワイプの「疲れ」をAIが可視化—スマホUIを筋骨格シミュレーションで評価する新技術

Innovatopia

効果検証入門② IPWでクーポン施策を見てみる

Qiita

自己進行型トレーニング戦略による、身体化推論における時空間ホールシネーションへの対抗：視覚言語モデルのための

要点

関連記事

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

フィジカルAIの次、「プロテインAI」

自分のPCで簡単にAIを動かせる「Ollama」には多数の問題点があり、llama.cppを使った方が良いという意見

Log2Motion：スワイプの「疲れ」をAIが可視化—スマホUIを筋骨格シミュレーションで評価する新技術

効果検証入門② IPWでクーポン施策を見てみる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer