HCLSM：オブジェクト中心の世界モデリングのための階層的因果潜在状態マシン

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、「フラット」な潜在状態の限界に対処するオブジェクト中心の世界モデリング・アーキテクチャであるHCLSMを提案し、シーンをスロットに分解し、時間ダイナミクスを階層的にモデル化し、相互作用グラフを通じて因果構造を学習する。
HCLSMは、3つの協調コンポーネントを組み合わせる：空間ブロードキャストによるデコーディングを用いたスロット注意（slot attention）によって物体を扱い、時間を1つのスケールに潰してしまう問題を避けるために、3階層の時間エンジン（連続的な物理のためのSSM、離散イベントのためのスパース・トランスフォーマ、抽象的な目標のための圧縮トランスフォーマ）を用いる。
グラフニューラルネットワークの相互作用パターンを用いて因果構造を推定し、学習中にイベント境界を獲得するとともに、次状態予測の精度を向上させる。
PushTロボティック操作ベンチマーク（Open X-Embodiment）での実験では、次状態予測損失0.008の強い結果に加え、空間分解の有効性（SBD損失0.0075）も示される。
本研究には、SSMスキャン用のカスタムTritonカーネルによって38×の高速化が得られるとされるなどの大規模なシステム工学が含まれており、比較的厳密なテストスイートとともにコードが提供される。

要旨: 動画から将来の状態を予測する世界モデルは、平坦な潜在表現によって制限されており、物体を絡め合わせ、因果構造を無視し、時間的ダイナミクスを単一のスケールへと押しつぶしてしまいます。私たちは、3つの相互に結びついた原則に基づいて動作する世界モデルのアーキテクチャであるHCLSMを提案します。それは、空間ブロードキャストによるデコーディングを伴うスロット・アテンションによる物体中心の分解、3レベルのエンジンによる階層的な時間ダイナミクス（連続的な物理のための選択的状態空間モデル、離散イベントのためのスパース・トランスフォーマ、抽象的な目標のための圧縮トランスフォーマ）、そしてグラフニューラルネットワークによる相互作用パターンを通じた因果構造の学習です。HCLSMは、ダイナミクス予測を開始する前に、空間再構成によってスロットの専門化を促す2段階の学習プロトコルを導入します。Open X-EmbodimentデータセットのPushTロボット操作ベンチマークで、68Mパラメータのモデルを訓練し、次状態予測損失として0.008のMSEを達成しました。さらに、空間分解が自然に現れ（SBD損失: 0.0075）、学習されたイベント境界も得られました。SSMスキャン用のカスタムTritonカーネルにより、逐次的なPyTorchに比べて38倍の高速化を実現しました。完全なシステムは、51のモジュールにまたがる8,478行のPythonと、171のユニットテストで構成されています。コード: https://github.com/rightnow-ai/hclsm