スコアベースの変分フローとしてのトランスフォーマー:オイラー離散化の観点から

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、Score-based Variational Flow(SVFlow)と呼ぶ連続時間のダイナミカルシステムを提案し、状態更新を条件付き対数尤度スコアの変分事後重み付き平均に基づいて行う枠組みを示している。
  • さらに、球面SVFlowに対して前進オイラー離散化を行うとトランスフォーマー構造が正確に再現されると主張し、トランスフォーマー設計の統一的な理論基盤を与えている。
  • 著者らはSVFlowの観点からトランスフォーマー各要素を説明しており、多頭注意をvMFカーネルで平滑化した事後分布に基づくベクトル場近似として位置づけている。
  • MoE/FFNについては、リラックスしたネットワーク近似によりベクトル場を表現すると述べ、残差+正規化ブロックは球面幾何を保つリラックスされたリトラクションとして解釈している。
  • プレトレーニング済み言語モデルに対しプレフィックスシャッフルを用いた実験では、SVFlow由来の指標がタスク性能と相関し、注意の内在的ダイナミクスに深さ依存の感度が見られたとしている。

要旨: 機械学習の分野でトランスフォーマーが支配的であるにもかかわらず、そのアーキテクチャは依然としてほとんど経験則的であり、統一された理論的基盤を欠いています。私たちは表現学習のための連続時間力学系であるスコアベースの変分フロー(Score-based Variational Flow, SVFlow)を導入します。この系では、状態が、条件付き対数尤度スコアの変分事後分布による重み付き平均に従って進化します。さらに、変分一貫性(variational consistency)によって正則化のための原理的な基盤を与えることを示します。球面SVFlowのフォワード・オイラー離散化が、トランスフォーマー・アーキテクチャを正確に再現することを示します。マルチヘッド注意は、vMFカーネルで平滑化した事後分布により、SVFlowのベクトル場を近似し、一方でMoE/FFNは、緩和されたネットワークに基づく方法でそれを近似します。また、残差正規化ブロックは、球面幾何を維持する緩和されたリトラクション(retraction)を実装します。この統一により、注意が明示的な正則化なしでも安定に学習できる理由が説明でき、MoEは補助的なバランシング損失を必要とする理由も説明されます。プレトレーニング済みの言語モデルに対してプレフィックスのシャッフルを行った実験では、SVFlowに起因する指標がタスク性能と相関すること、深さに依存した感度が明らかになること、そして注意の固有の力学を反映することが示されます。