FluidWorld：反応拡散ダイナミクスを予測的サブストレートとして用いるワールドモデル

arXiv cs.LG / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、反応拡散のPDEを直接積分することで将来状態を予測するワールドモデル「FluidWorld」を提案する。別個のTransformerやConvLSTMの予測器ネットワークを用いるのではない。
UCF-101の動画予測（64×64）における制御されたアブレーション実験で、FluidWorldは1ステップ予測の損失では同等だが、自己注意TransformerベースラインおよびConvLSTMベースラインの両方よりも再構成誤差が大幅に良い。
FluidWorldが学習した表現は、空間構造の保持が改善している（10〜15%高い）こと、また有効次元性が高い（18〜25%多い）ことが示され、空間情報のより良い保持が示唆される。
TransformerやConvLSTMのベースラインとは異なり、FluidWorldはより首尾一貫した多ステップのロールアウトを維持し、他モデルは劣化がより急速である。
この手法は、PDEによる拡散により空間計算量がO(N)となるなど、計算効率（空間効率）が高いと主張されており、大規模な計算環境を用いずに、単一の一般的な消費者PCで学習・推論を行ったことを示している。

Abstract

ワールドモデルは、環境の将来状態を予測することを学習し、それによって計画や頭の中でのシミュレーションを可能にします。現在のアプローチでは、多くの場合、学習した潜在空間上で動作するTransformerベースの予測器に依存しています。しかしこれは代償を伴います。計算量がO(N^2)となり、明示的な空間的帰納バイアスがありません。本論文では、基礎的な問いを投げかけます。予測的なワールドモデリングに自己注意（self-attention）は必須なのか、それとも別の計算基盤によって同等、あるいはそれ以上の結果が得られるのか。反応拡散（reaction-diffusion）型の偏微分方程式（PDE）によって予測ダイナミクスが決まる、プロトタイプのワールドモデルFluidWorldを導入します。別個のニューラルネットワーク予測器を使う代わりに、PDEの数値積分そのものが将来状態の予測を生成します。無条件UCF-101の動画予測（64x64、約800Kパラメータ、エンコーダ、デコーダ、損失、データはいずれも同一）に対して、厳密にパラメータを揃えた3者アブレーションを行い、FluidWorldをTransformerベースライン（自己注意）およびConvLSTMベースライン（畳み込み再帰）と比較します。3つのモデルはいずれも1ステップ予測の損失では同程度に収束する一方で、FluidWorldは再構成誤差を2倍低くし、空間構造の保存が10〜15%高く、さらに有効な次元数（effective dimensionality）が18〜25%多い表現を生成します。加えて決定的な点として、両ベースラインが急速に劣化するのに対し、FluidWorldは首尾一貫した多ステップのロールアウトを維持します。すべての実験は、単一の一般的な消費者向けPC（Intel Core i5、NVIDIA RTX 4070 Ti）上で行われ、大規模な計算は用いていません。これらの結果は、拡散によるグローバルな空間的コヒーレンス、適応的計算、そして本質的にO(N)の空間計算量を提供するPDEベースのダイナミクスが、ワールドモデリングにおいて注意（attention）と畳み込み再帰の両方に対する、パラメータ効率の高い実行可能な代替手段であることを示しています。

Black Hat Asia

AI Business

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

FluidWorld：反応拡散ダイナミクスを予測的サブストレートとして用いるワールドモデル

要点

Abstract

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供