知覚から計画へ:カリキュラム学習によるエゴ中心のタスク指向時空間推論の進化

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在の視覚言語モデルが身体化されたエゴ中心タスクで苦手とするのは、受動的な動画から学習した時間的な事前知識に依存しているためだと主張している。これにより、時空間の幻覚(hallucination)が生じやすくなり、動的環境における汎化性能も弱くなる。
  • 著者らは、推論を「明示的な空間理解」から「タスク状態の評価」、そして最終的には「長期的な計画」へと段階的に進める、カリキュラムベースの学習フレームワークEgoTSRを提案する。
  • この学習パラダイムを可能にするため、著者らはEgoTSR-Dataを構築する。これは46Mサンプルからなるデータセットで、監督の段階を3つに分けて編成されている:Chain-of-Thought(CoT)、弱い教師ありタグ付け、そして長期ホライズンのシーケンス。
  • 実験では、EgoTSRが時系列バイアスを除去し、長期ホライズンの論理推論タスクで92.4%の精度を達成しつつ、高い知覚的精度も維持することが報告されている。さらに、先行の最先端モデルを上回る。

概要: 現代の視覚言語モデルは静的な認識において強力な性能を発揮しますが、身体化された、すなわちエゴセントリックなタスクに必要な複雑な時空間推論には依然として制限があります。大きな失敗要因の1つは、受動的な動画データから学習した時間的事前知識(temporal priors)に依存していることです。これにより、しばしば時空間的な幻覚が生じ、動的な環境での汎化性能が低下します。これに対処するために、本研究ではタスク志向の時空間推論を学習するためのカリキュラムベースの枠組みであるEgoTSRを提案します。EgoTSRは、身体化された推論は、明示的な空間理解から、内部化されたタスク状態の評価、そして最終的に長期ホライズンの計画へと進化すべきである、という前提に基づいて構築されています。このパラダイムを支えるために、EgoTSR-Dataという大規模データセットを構築します。これは3つの段階で整理された4,600万サンプルから成り、段階は、Chain-of-Thought(CoT)による監督、弱い監督によるタグ付け、そして長期ホライズンのシーケンスです。大規模な実験の結果、EgoTSRは年代(時間)バイアスを効果的に排除し、長期ホライズンの論理推論タスクで92.4%の精度を達成しつつ、高いきめ細かな知覚の精度を維持できることが示されました。さらに、既存のオープンソースおよびクローズドソースの最先端モデルを大幅に上回ります。