FluidWorld:反応拡散ダイナミクスを予測的サブストレートとして用いるワールドモデル

arXiv cs.LG / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、反応拡散のPDEを直接積分することで将来状態を予測するワールドモデル「FluidWorld」を提案する。別個のTransformerやConvLSTMの予測器ネットワークを用いるのではない。
  • UCF-101の動画予測(64×64)における制御されたアブレーション実験で、FluidWorldは1ステップ予測の損失では同等だが、自己注意TransformerベースラインおよびConvLSTMベースラインの両方よりも再構成誤差が大幅に良い。
  • FluidWorldが学習した表現は、空間構造の保持が改善している(10〜15%高い)こと、また有効次元性が高い(18〜25%多い)ことが示され、空間情報のより良い保持が示唆される。
  • TransformerやConvLSTMのベースラインとは異なり、FluidWorldはより首尾一貫した多ステップのロールアウトを維持し、他モデルは劣化がより急速である。
  • この手法は、PDEによる拡散により空間計算量がO(N)となるなど、計算効率(空間効率)が高いと主張されており、大規模な計算環境を用いずに、単一の一般的な消費者PCで学習・推論を行ったことを示している。

Abstract

ワールドモデルは、環境の将来状態を予測することを学習し、それによって計画や頭の中でのシミュレーションを可能にします。現在のアプローチでは、多くの場合、学習した潜在空間上で動作するTransformerベースの予測器に依存しています。しかしこれは代償を伴います。計算量がO(N^2)となり、明示的な空間的帰納バイアスがありません。本論文では、基礎的な問いを投げかけます。予測的なワールドモデリングに自己注意(self-attention)は必須なのか、それとも別の計算基盤によって同等、あるいはそれ以上の結果が得られるのか。反応拡散(reaction-diffusion)型の偏微分方程式(PDE)によって予測ダイナミクスが決まる、プロトタイプのワールドモデルFluidWorldを導入します。別個のニューラルネットワーク予測器を使う代わりに、PDEの数値積分そのものが将来状態の予測を生成します。無条件UCF-101の動画予測(64x64、約800Kパラメータ、エンコーダ、デコーダ、損失、データはいずれも同一)に対して、厳密にパラメータを揃えた3者アブレーションを行い、FluidWorldをTransformerベースライン(自己注意)およびConvLSTMベースライン(畳み込み再帰)と比較します。3つのモデルはいずれも1ステップ予測の損失では同程度に収束する一方で、FluidWorldは再構成誤差を2倍低くし、空間構造の保存が10〜15%高く、さらに有効な次元数(effective dimensionality)が18〜25%多い表現を生成します。加えて決定的な点として、両ベースラインが急速に劣化するのに対し、FluidWorldは首尾一貫した多ステップのロールアウトを維持します。すべての実験は、単一の一般的な消費者向けPC(Intel Core i5、NVIDIA RTX 4070 Ti)上で行われ、大規模な計算は用いていません。これらの結果は、拡散によるグローバルな空間的コヒーレンス、適応的計算、そして本質的にO(N)の空間計算量を提供するPDEベースのダイナミクスが、ワールドモデリングにおいて注意(attention)と畳み込み再帰の両方に対する、パラメータ効率の高い実行可能な代替手段であることを示しています。
広告