トランスフォーマー確率モデルにおける効率的な自己回帰推論

arXiv stat.ML / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • セットベースのトランスフォーマー確率モデルは単回パスの周辺予測を得意とする一方、同時(ジョイント)分布を作るには自己回帰ステップごとに文脈を全再エンコードする必要があり、計算コストが大きいです。
  • 本論文は、文脈を1度だけキャッシュし、生成した過去のターゲットを因果的なバッファに逐次追加していく「因果自己回帰バッファ」を提案します。
  • これにより、新しい予測がキャッシュ済みの文脈とバッファ内の既生成ターゲットの両方に注意を向けられるため、効率的なバッチ自己回帰サンプリングとジョイント予測密度評価が可能になります。
  • 学習ではマスク付き注意により、セットベースモードと自己回帰モードを最小限の追加オーバーヘッドで統合します。
  • 合成関数、EEG時系列、ベイズモデル比較、表形式回帰での実験では、完全な再エンコードと同等の性能を維持しつつ、ジョイントサンプリング/密度評価が最大20倍高速、メモリ使用量が最大7倍削減されることを示しました。

Abstract

ニューラルプロセス、prior-fitted networks、表形式の基盤モデルのような、償却可能な確率的推論およびメタ学習のためのセットベース・トランスフォーマーモデルは、単一パスの周辺(marginal)予測において優れています。しかし多くの応用では、複数の予測にまたがる同時分布(joint distributions)が必要になります。純粋に自己回帰(autoregressive)なアーキテクチャはこれを効率的に生成できますが、柔軟なセット条件付けを犠牲にします。セットベースのモデルから同時分布を得るには、自己回帰ステップごとにコンテキスト全体を再エンコードする必要があり、スケールしにくくなります。私たちは、両方のパラダイムの強みを組み合わせる因果的な自己回帰バッファを導入します。このモデルはコンテキストを一度だけエンコードしてキャッシュし、生成されたターゲット間の依存関係を捉える軽量な因果バッファを用意します。各新しい予測は、キャッシュされたコンテキストと、バッファに追加されたこれまでに予測したすべてのターゲットの両方に注意(attend)します。これにより、効率的なバッチ化自己回帰サンプリングと、同時(joint)予測密度の評価が可能になります。学習では、最小限のオーバーヘッドでマスク付きアテンションにより、セットベース・モードと自己回帰モードを統合します。合成関数、EEG時系列、ベイズ的なモデル比較タスク、表形式回帰において、私たちの手法は、コンテキスト全体の再エンコードを用いる手法と非常に近い性能を保ちながら、同時サンプリングおよび密度評価で最大20\times高速化し、メモリ使用量では最大7\times削減を実現します。