身体性ワールドモデルを計画・制御へ拡張する(Lifting Embodied World Models for Planning and Control)

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 身体を持つエージェントのワールドモデルは、行動に条件づけて将来の観測を予測できる一方で、高次元の行動空間(例:人型の各関節を精密に制御する場合)では計画が難しくなる。
  • そこで本論文は、高位の行動を低位の関節行動列へ写像する軽量なポリシーを学習し、凍結したワールドモデルと合成して「リフト(拡張)された」ワールドモデルを構成する方法を提案する。
  • リフトされたワールドモデルは、1つの高位行動から将来の観測列を予測できるようになり、低次元で解釈しやすい行動表現として、現在のフレームに対する2Dウェイポイント(近未来の関節目標を指定)を用いる。
  • 実験では、人型の身体を想定した設定で、低位の関節空間に直接探索する方法よりも目標への関節誤差が大幅に改善(平均関節誤差が3.8倍低減)しつつ、計算効率も高く、ポリシーが未見の環境にも汎化することが示される。
  • この手法は、行動をより解釈可能にし、手動指定や探索を容易にすることで、制御性と計画のしやすさを高める点を重視している。

Abstract

体のあるエージェントの世界モデルは、エージェントがとった行動に条件づけて将来の観測を予測します。複雑な身体形状では、行動空間は高次元になり、指定が難しくなります。たとえば、人間のエージェントを正確に制御するには、各関節の動きを指定する必要があります。これにより、世界モデルの制御が難しくなり、また、CEMのような探索ベースの手法は行動の次元数に対してスケールしにくいため、計画コストも高くなります。この問題に対処するため、我々は、高レベルの行動を低レベルの関節行動の系列へと写像する軽量なポリシーを学習します。このポリシーを凍結した世界モデルと組み合わせることで、持ち上げられた(lifted)世界モデルが得られ、単一の高レベル行動から将来の観測系列を予測できるようになります。我々は、この枠組みを人間に近い身体のために具体化し、高レベルの行動空間を、現在の観測フレーム上に注釈された少数の2Dウェイポイントの集合として定義します。各ウェイポイントは、葉(leaf)関節(骨盤、頭部、手)の短期的な目標位置を指定します。ウェイポイントは低次元で、視覚的に解釈可能であり、手動での指定や探索が容易です。我々は、持ち上げられた世界モデルが、低レベルの関節空間において直接探索する場合と比べて大幅に性能が高いことを示します(目標姿勢に対する平均関節誤差が 3.8\times 低い)。さらに、より計算効率が高く、ポリシーが見ていない環境にも汎化できることを確認します。