AI Navigate

PDE-SSM: 拡散トランスフォーマーにおける空間混合へのスペクトル状態空間アプローチ

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PDE-SSM は、自己注意を代替する学習可能な対流-拡散-反応型の PDE を用いた空間状態空間ブロックを導入し、視覚トランスフォーマーにおける空間的事前情報をエンコードします。
  • フーリエ領域で PDE を解くことにより、ほぼ線形の計算量 O(N log N) を実現し、グローバル情報を混合する全結合アテンションのスケーラブルな代替手段を提供します。
  • PDE-SSM ブロックをフロー整合生成モデルへ組み込み、PDE-SSM-DiT を形成することで、計算コストを大幅に削減しながら競争力のあるまたは優れた性能を実現します。
  • 多次元の PDE 演算子は SSMs の帰納的バイアスの利点を視覚モデルへ拡張し、次世代アーキテクチャの原理的基盤を提供する可能性を示唆します。

概要: 視覚トランスフォーマーの成功は、特に生成モデルにおいて、自己注意の二次計算量と弱い空間的帰納バイアスによって制限される。
私たちは PDE-SSM を提案します。これは、注意機構を学習可能な対流・拡散・反応の偏微分方程式に置換する、空間的状態空間ブロックです。
この演算子は、全トークン間の相互作用ではなく、物理的に根拠のあるダイナミクスを介して情報の流れをモデル化することにより、強力な空間的事前情報をエンコードします。
フーリエ領域で PDE を解くと、グローバルな結合を生み出し、計算量はほぼ線形の O(N \log N) となり、注意機構に対する原理的でスケーラブルな代替手段を提供します。
PDE-SSM をフロー・マッチング生成モデルに組み込み、PDE ベースの拡散トランスフォーマー PDE-SSM-DiT を得ます。
実証的には、PDE-SSM-DiT は最先端の拡散トランスフォーマーの性能に匹敵するか、それを上回る一方で、計算量を大幅に削減します。
我々の結果は、1D の設定で SSM が注意機構を置換するのと類似して、複数次元の PDE 演算子が次世代の視覚モデルのための効率的で、帰納的バイアスに富んだ基盤を提供することを示しています。