SympFormer: 密度多様体上の慣性Nesterov型ダイナミクスによる加速注意ブロック

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SympFormer は、密度多様体上の慣性Nesterov型ダイナミクスに由来する加速された注意ブロックを導入し、トークンは空間変数と速度変数の両方を保持してハミルトン運動量注意ブロックを形成します。
線形自己注意のためのブロックは、双線形カーネルを用いた Stein 変分勾配流を近似し、楕円分布を保ちます。
本研究は実装可能な粒子ベースのアルゴリズムを提供し、従来の注意よりも収束が速いことを、同じオラクル呼び出し回数を維持したまま示します。
注意を Wasserstein-2 型の密度空間上の粒子系として扱うことにより、物理に触発されたダイナミクスをトランスフォーマーへ結びつけ、将来のモデルの効率性と安定性の改善を示唆します。

概要：トランスフォーマーは自然言語処理における経験的成功の多くを自己注意ブロックに負っている。最近の視点では、注意ブロックを相互作用する粒子系として解釈し、それらの平均場極限が、Wasserstein-2型の距離を備えた確率密度空間上の相互作用エネルギー汎関数の勾配流に対応する。私たちは、密度空間上の慣性Nesterov型ダイナミクスから派生した加速注意ブロックを導入することでこの見方を拡張する。提案するアーキテクチャでは、トークンは空間的（特徴）および速度変数の双対を携える。時間離散化と加速密度ダイナミクスの近似は、ハミルトニアン運動量注意ブロックを生み出し、これらが提案された加速注意アーキテクチャを構成する。特に線形自己注意については、注意ブロックがポテンシャルエネルギーのStein変分勾配流を、ビリニアカーネルを用いて近似することを示す。この設定において、楕円型に等高線を持つ確率分布が加速注意ブロックによって保存されることを証明する。実装可能な粒子法ベースのアルゴリズムを提示し、提案された加速注意ブロックが従来の注意ブロックよりも収束が速い一方で、オラクル呼び出し回数を保持することを示す。

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

SympFormer: 密度多様体上の慣性Nesterov型ダイナミクスによる加速注意ブロック

要点

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

AIにおけるMCPを解説（実例付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer