Abstract
ニューラルプロセス、prior-fitted networks、表形式の基盤モデルのような、償却可能な確率的推論およびメタ学習のためのセットベース・トランスフォーマーモデルは、単一パスの周辺(marginal)予測において優れています。しかし多くの応用では、複数の予測にまたがる同時分布(joint distributions)が必要になります。純粋に自己回帰(autoregressive)なアーキテクチャはこれを効率的に生成できますが、柔軟なセット条件付けを犠牲にします。セットベースのモデルから同時分布を得るには、自己回帰ステップごとにコンテキスト全体を再エンコードする必要があり、スケールしにくくなります。私たちは、両方のパラダイムの強みを組み合わせる因果的な自己回帰バッファを導入します。このモデルはコンテキストを一度だけエンコードしてキャッシュし、生成されたターゲット間の依存関係を捉える軽量な因果バッファを用意します。各新しい予測は、キャッシュされたコンテキストと、バッファに追加されたこれまでに予測したすべてのターゲットの両方に注意(attend)します。これにより、効率的なバッチ化自己回帰サンプリングと、同時(joint)予測密度の評価が可能になります。学習では、最小限のオーバーヘッドでマスク付きアテンションにより、セットベース・モードと自己回帰モードを統合します。合成関数、EEG時系列、ベイズ的なモデル比較タスク、表形式回帰において、私たちの手法は、コンテキスト全体の再エンコードを用いる手法と非常に近い性能を保ちながら、同時サンプリングおよび密度評価で最大20\times高速化し、メモリ使用量では最大7\times削減を実現します。