初期表現への選択的アクセスを行うTransformer(SATFormer)[R]

Reddit r/MachineLearning / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、後段層が初期表現にアクセスできるTransformer派生手法が情報伝達を改善する一方、スループットやメモリコストを伴い得る点を検討している。
  • SATFormerを提案し、価値の残差学習で使われる「安価な最初の層のバリューパス」は維持しつつ、層間の静的な混合を「トークンごと・ヘッドごと・文脈依存」のゲートに置き換える。
  • 130M〜1.3Bパラメータ規模のモデルで、SATFormerは標準TransformerおよびResFormerよりも検証損失を改善する。
  • 検索(retrieval)を集中的に行うベンチマークでは、評価されたアーキテクチャの中でSATFormerが平均スコアで最も良く、MUDDFormerをわずかに上回り、ResFormerに対して平均で約1.5点改善する。
  • 機械論的分析により、ゲートは単なる密な残差ショートカットではなく、疎でありつつ深さ・ヘッドに依存し、トークンによって強さが変わることが示唆される。
Transformers with Selective Access to Early Representations [R]

みなさんこんにちは。新しい論文を共有できることを嬉しく思います!

図1:アーキテクチャ間の比較

最近のTransformerの多くの派生は、後続の層を前の表現に触れさせることで、深さ方向の情報フローを改善しようとしています。DenseFormer、MUDDFormer、HyperConnectionsといった手法について、最近聞いたことがあるかもしれません。これらは、より密な、あるいは動的なクロス層の経路を追加することで表現力を高めます。ですが、それらには、意味のあるスループットやメモリコストが伴う場合もあります。

私たちの問いは、より具体的でした:より原理的な形で初期の表現を再利用できるようにすることで、大規模における効率と性能のトレードオフを改善できるでしょうか?

私たちはSATFormerを提案します。価値の残差学習で使われる、安価な最初の層の値(value)経路はそのまま維持しますが、静的な層ごとの混合を、トークンごと・ヘッドごと・文脈依存のゲートに置き換えます。SATFormerは、初期特徴をすべての後続層に一様にコピーするのではなく、各ヘッドが最初の層の値ストリームを「いつ」「どこで」再アクセスすべきかを学習します。

主な結果:

  • 130M〜1.3Bモデルの範囲で、SATFormerはTransformerおよびResFormerのベースラインの両方に対して検証損失を改善します。
  • 検索を集中的に行うベンチマークでは、SATFormerは評価したアーキテクチャの中で最良の平均スコアを達成し、MUDDFormerをわずかに上回り、ResFormerに対して平均で約1.5ポイント改善します。
  • SATFormerの計算はTransformer/ResFormerに近く、これらはHyperConnectionsおよびMUDDFormerより約1.75×〜1.82×高いスループットを持ちます。
  • メカニズム分析から、ゲートは単に密な残差ショートカットのように振る舞うだけではないことが示唆されます。アクセスは疎であり、深さに依存し、ヘッド固有で、特定のトークンに対してより強くなります。

中心となる捉え方は、初期表現の再利用は、接続性/最大ルーティングの問題として扱うよりも、検索(retrieval)/制御(control)の問題として扱うほうが良いかもしれない、ということです。高いスループットを維持しつつTransformerアーキテクチャを改善するための、より良いアプローチがどのようなものかについて議論できることを楽しみにしています。

Arxiv: https://arxiv.org/pdf/2605.03953

github(まだ作業中):https://github.com/SkyeGunasekaran/SATFormer

submitted by /u/Skye7821
[リンク] [コメント]