未監督の視覚トレースからリフトされた行動モデルを学習する

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、行動が直接観測されない前提で、状態画像の時系列のみからAI計画のための「リフトされた行動モデル」を学習する手法を提案している。
  • 状態予測、行動予測、そしてリフトされた(記号化/パラメータ化された)行動モデルを、統合的に同時学習するディープラーニングの枠組みを提示している。
  • 予測の崩壊や、予測同士が誤りを増幅してしまう問題を防ぐために、ネットワークの生の予測に近い形で、論理的に整合する状態・行動・行動モデルをMILPで探索する仕組みを導入している。
  • MILP解から得た擬似ラベルを次の学習に用い、局所解から抜けて大域的に整合した解へ収束しやすくなることを複数ドメインの実験で示している。
  • 全体として、現実の計画システムに必要な行動ダイナミクスの、(より)教師なし/弱教師あり学習を前進させる内容である。