Describe-Then-Act:蒸留された言語・行動ワールドモデルによる先回り型エージェント制御

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性が重要なエージェントが、高価な視覚シミュレーションを行わずに、ポリシーの潜在状態とその計画した行動を用いることで、行動の結果を予測できると主張する。
  • 「simulate-then-act(シミュレートしてから行動)」を「describe-then-act(説明してから行動)」に置き換える、高速なステアリング層DILLOを提案し、セマンティックな次状態の予測によって転換する。
  • DILLOはクロスモーダル蒸留によって学習される。特権的な視覚言語モデルの教師がオフライン軌跡にラベルを付与し、潜在状態に条件付けられた大規模言語モデルの学生がテキストのみの推論でそれらを生成する。
  • テキストのみの推論経路は重い視覚生成を回避し、ベースラインに対して14×の速度向上を達成しつつ、高忠実な次状態記述を維持する。
  • MetaWorldおよびLIBEROでの実験では、DILLOがポリシーを制御し、エピソード成功率を一部のタスクで最大15ポイント、平均で9.3ポイント改善できることを示す。