| みなさんこんにちは。新しい論文を共有できることを嬉しく思います! 最近のTransformerの多くの派生は、後続の層を前の表現に触れさせることで、深さ方向の情報フローを改善しようとしています。DenseFormer、MUDDFormer、HyperConnectionsといった手法について、最近聞いたことがあるかもしれません。これらは、より密な、あるいは動的なクロス層の経路を追加することで表現力を高めます。ですが、それらには、意味のあるスループットやメモリコストが伴う場合もあります。 私たちの問いは、より具体的でした:より原理的な形で初期の表現を再利用できるようにすることで、大規模における効率と性能のトレードオフを改善できるでしょうか? 私たちはSATFormerを提案します。価値の残差学習で使われる、安価な最初の層の値(value)経路はそのまま維持しますが、静的な層ごとの混合を、トークンごと・ヘッドごと・文脈依存のゲートに置き換えます。SATFormerは、初期特徴をすべての後続層に一様にコピーするのではなく、各ヘッドが最初の層の値ストリームを「いつ」「どこで」再アクセスすべきかを学習します。 主な結果:
中心となる捉え方は、初期表現の再利用は、接続性/最大ルーティングの問題として扱うよりも、検索(retrieval)/制御(control)の問題として扱うほうが良いかもしれない、ということです。高いスループットを維持しつつTransformerアーキテクチャを改善するための、より良いアプローチがどのようなものかについて議論できることを楽しみにしています。 Arxiv: https://arxiv.org/pdf/2605.03953 github(まだ作業中):https://github.com/SkyeGunasekaran/SATFormer [リンク] [コメント] |
初期表現への選択的アクセスを行うTransformer(SATFormer)[R]
Reddit r/MachineLearning / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、後段層が初期表現にアクセスできるTransformer派生手法が情報伝達を改善する一方、スループットやメモリコストを伴い得る点を検討している。
- SATFormerを提案し、価値の残差学習で使われる「安価な最初の層のバリューパス」は維持しつつ、層間の静的な混合を「トークンごと・ヘッドごと・文脈依存」のゲートに置き換える。
- 130M〜1.3Bパラメータ規模のモデルで、SATFormerは標準TransformerおよびResFormerよりも検証損失を改善する。
- 検索(retrieval)を集中的に行うベンチマークでは、評価されたアーキテクチャの中でSATFormerが平均スコアで最も良く、MUDDFormerをわずかに上回り、ResFormerに対して平均で約1.5点改善する。
- 機械論的分析により、ゲートは単なる密な残差ショートカットではなく、疎でありつつ深さ・ヘッドに依存し、トークンによって強さが変わることが示唆される。




