Macrocosmosは、低帯域幅のパイプライン並列学習向けに設計された新しいトランスフォーマーベースのアーキテクチャ「ResBM(Residual Bottleneck Models)」に関する論文を公開しました。
https://arxiv.org/abs/2604.11947
ResBMは、パイプライン境界にまたがって残差型のエンコーダー・デコーダーのボトルネックを導入し、明示的な低ランクのアイデンティティ経路を保持しつつ、ステージ間の通信を削減することを目標としています。この論文では、圧縮していないベースラインに比べて収束の大きな損失なしに、SOTAで128×のアクティベーション圧縮が報告されています。
彼らの実験では、最も強力な圧縮結果はMuonを用いたものであり、この論文はResBMを、分散型/インターネット規模に耐えるパイプライン並列学習の発展として位置づけています。
[リンク] [コメント]




