Abstract
体のあるエージェントの世界モデルは、エージェントがとった行動に条件づけて将来の観測を予測します。複雑な身体形状では、行動空間は高次元になり、指定が難しくなります。たとえば、人間のエージェントを正確に制御するには、各関節の動きを指定する必要があります。これにより、世界モデルの制御が難しくなり、また、CEMのような探索ベースの手法は行動の次元数に対してスケールしにくいため、計画コストも高くなります。この問題に対処するため、我々は、高レベルの行動を低レベルの関節行動の系列へと写像する軽量なポリシーを学習します。このポリシーを凍結した世界モデルと組み合わせることで、持ち上げられた(lifted)世界モデルが得られ、単一の高レベル行動から将来の観測系列を予測できるようになります。我々は、この枠組みを人間に近い身体のために具体化し、高レベルの行動空間を、現在の観測フレーム上に注釈された少数の2Dウェイポイントの集合として定義します。各ウェイポイントは、葉(leaf)関節(骨盤、頭部、手)の短期的な目標位置を指定します。ウェイポイントは低次元で、視覚的に解釈可能であり、手動での指定や探索が容易です。我々は、持ち上げられた世界モデルが、低レベルの関節空間において直接探索する場合と比べて大幅に性能が高いことを示します(目標姿勢に対する平均関節誤差が 3.8\times 低い)。さらに、より計算効率が高く、ポリシーが見ていない環境にも汎化できることを確認します。