皆さん、こんにちは。
cs.LG への arXiv 承認を取得して初論文を提出したいと考えている研究者です。私は約1年間 FluidWorld という世界モデルに取り組んできました。 FluidWorld は予測エンジンがアテンションの代わりに反応拡散PDEとして動作します。ラプラシアン拡散が空間伝搬を担い、学習された反応項が非線形の混合を行い、PDEの積分自体が予測を生み出します。
アテンションなし、KVキャッシュなし、O(N) の計算量、総パラメータ数は867K。
パラメータを揃えた比較(PDE 対 Transformer 対 ConvLSTM、いずれも約800Kパラメータ、同じエンコーダ/デコーダ/損失/データを UCF-101 で使用)を行ったところ、興味深いことに、単一ステップの指標はほぼ同一である一方、複数ステップのロールアウトでは PDE の方がはるかに安定して機能します。拡散は誤差蓄積を防ぐ自然な空間的正則化として機能します。
論文: https://github.com/infinition/FluidWorld/blob/main/paper/Fluidworld.pdf
承認コード: 6AB9UP
https://arxiv.org/auth/endorse?x=6AB9UP
世界モデル、動画予測、ニューラルPDE、または効率的なアーキテクチャの分野で活動している方が私をエンドースしてくださると大変ありがたいです。研究内容についてのご質問には喜んでお答えします。よろしくお願いします!
[リンク] [コメント]

