AI Navigate

[D] arXivエンドースメントを募集しています (cs.LG) - PDEベースのワールドモデル論文

Reddit r/MachineLearning / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • FluidWorldを投稿するためのarXivエンドースメントを求める投稿で、動画予測のPDEベースのワールドモデルであるFluidWorldを提案しており、予測子はアテンションではなく反応拡散型PDEを用いていると主張している。
  • モデルは空間伝播にラプラシアン拡散を用い、非線形混合のための学習された反応項、PDEの積分によって予測を生成する、パラメータ数867K、計算量はO(N)である。
  • UCF-101データセット上でTransformerおよびConvLSTMとパラメータを揃えた比較を行い、単一ステップの指標は類似している一方で、PDEアプローチがマルチステップのロールアウトをより良くすることを示しており、拡散が空間的な正則化として機能し、誤差の蓄積を抑える。
  • 著者はFluidWorld論文へのリンクとエンドースメントコードを提供し、ワールドモデル、動画予測、ニューラルPDE、あるいは効率的なアーキテクチャに取り組む研究者からのエンドースメントを募集している。

皆さん、こんにちは。

cs.LG への arXiv 承認を取得して初論文を提出したいと考えている研究者です。私は約1年間 FluidWorld という世界モデルに取り組んできました。 FluidWorld は予測エンジンがアテンションの代わりに反応拡散PDEとして動作します。ラプラシアン拡散が空間伝搬を担い、学習された反応項が非線形の混合を行い、PDEの積分自体が予測を生み出します。

アテンションなし、KVキャッシュなし、O(N) の計算量、総パラメータ数は867K。

パラメータを揃えた比較(PDE 対 Transformer 対 ConvLSTM、いずれも約800Kパラメータ、同じエンコーダ/デコーダ/損失/データを UCF-101 で使用)を行ったところ、興味深いことに、単一ステップの指標はほぼ同一である一方、複数ステップのロールアウトでは PDE の方がはるかに安定して機能します。拡散は誤差蓄積を防ぐ自然な空間的正則化として機能します。

論文: https://github.com/infinition/FluidWorld/blob/main/paper/Fluidworld.pdf

承認コード: 6AB9UP
https://arxiv.org/auth/endorse?x=6AB9UP

世界モデル、動画予測、ニューラルPDE、または効率的なアーキテクチャの分野で活動している方が私をエンドースしてくださると大変ありがたいです。研究内容についてのご質問には喜んでお答えします。よろしくお願いします!

投稿者 /u/Bright_Warning_8406
[リンク] [コメント]