要旨:
トランスフォーマーにおける標準的な注意機構は、ペアワイズ形式に制約されており、トークン間の高次の依存関係をモデル化するのを妨げる。私たちは NeuroGame Transformer(NGT)を導入し、注意機構を二重の視点から再概念化することでこの問題を克服します。トークンは同時に協力ゲームのプレーヤーとして扱われ、統計物理学系の相互作用スピンとしても振る舞います。トークンの重要性は、2つの補完的なゲーム理論的概念を用いて定量化されます——グローバルで順列ベースの帰属を表すシャープリー値と、局所的な連合レベルの影響を表すバンザフ指数です。これらは、学習可能なゲーティングパラメータを介して組み合わせられ、外部磁場を形成します。一方、ペアワイズ相互作用ポテンシャルは協同的な関係を捉えます。系のエネルギーはイジン(Ising)ハミルトニアンに従い、アテンション重みはギブス分布の周辺確率として現れ、平均場方程式によって効率的に計算されます。指数的な連合空間にもかかわらずスケーラビリティを確保するため、ギブス分布の重みを用いた重要度重み付きモンテカルロ推定器を開発します。このアプローチは明示的な指数因子を回避し、長いシーケンスに対する数値的安定性を保証します。理論的な収束保証を提供し、補間パラメータによって支配される公平性と感度のトレードオフを特徴づけます。実験結果は、NeuroGame Transformer が SNLI および MNLI-matched の両方で高い性能を達成し、主要な効率的トランスフォーマーベースラインを上回ることを示しています。SNLI では、テスト精度は 86.4%(最高検証精度は 86.6%)に達し、ALBERT-Base を上回り、RoBERTa-Base とも高い競争力を維持します。コードは https://github.com/dbouchaffra/NeuroGame-Transformer に公開されています。
NeuroGame Transformer: ゲーム理論と統計物理学に触発されたギブス型アテンション
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- NeuroGame Transformerは、トークンを協調ゲームのプレイヤーとして扱うと同時に、ギブス分布に基づく物理系の相互作用スピンとして扱うことで、注意機構に二重の視点を導入します。
- グローバルな寄与の評価にはシャプレー値を、局所的な影響にはバンザフ指数を用い、学習可能なゲートを介して結合させ、注意を変調する外部磁場を形成します。
- ペアワイズ相互作用はIsing様のエネルギーで捉えられ、アテンション重みはギブス分布の周辺確率として現れ、平均場方程式を用いて効率的に計算されます。
- 長いシーケンスに対応するため、本手法はギブス分布の重みを用いた重要度重み付きモンテカルロ推定量を採用し、収束性の理論的保証と、補間パラメータによって制御される公平性と感度のトレードオフを提供します。
- SNLIおよびMNLI-matchedデータセットでの実験結果は高い性能を示し、ALBERT-Baseを上回り、RoBERTa-Baseにも高い競争力を維持しています。コードはGitHubで公開されています。