Macrocosmosは、低帯域幅のパイプライン並列学習向けに設計された、新しいトランスフォーマー型アーキテクチャ「ResBM(Residual Bottleneck Models)」に関する論文を公開しました。
https://arxiv.org/abs/2604.11947
ResBMは、パイプライン境界をまたいで残差型のエンコーダ・デコーダのボトルネックを導入し、明示的な低ランクのアイデンティティ経路を維持しながら、ステージ間の通信を削減することを目的としています。論文では、圧縮なしのベースラインに比べて収束に大きな損失を伴わずに、SOTAとなる128×のアクティベーション圧縮を報告しています。
実験において、最も強力な圧縮結果はMuonを使用したものです。論文はResBMを、分散化/インターネット規模のパイプライン並列学習の発展として位置づけています。
完全な開示:私はMacrocosmosで働いています。この論文をエンジニアリングチームから共有します
[リンク] [コメント]




