分散環境でより効率的にモデルを学習できるようにするための、新しいトランスフォーマーのバリアントが作成された。重要な収束率の低下や、メモリ/計算オーバーヘッドの増大なしに128×圧縮

Reddit r/LocalLLaMA / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Macrocosmosは、低帯域幅のパイプライン並列分散学習における段間通信を削減することを目的とした、新しいトランスフォーマー・アーキテクチャであるResBM(Residual Bottleneck Models)を紹介する論文を発表した。
  • ResBMは、学習の有効性を維持するために明示的な低ランクの恒等経路を保持しつつ、パイプライン境界をまたぐ残差型のエンコーダ・デコーダ・ボトルネックを追加する。
  • 論文では、非圧縮のベースラインと比較して、収束の点で有意な低下なしに128×アクティベーション圧縮を達成する、最先端の結果が報告されている。
  • 実験における最も強力な結果ではMuonが用いられており、この取り組みは、分散型、または「インターネット級」のパイプライン並列学習環境に有用であることが示されている。
  • この投稿はMacrocosmosのエンジニアリングチームによる共有であることを示しており、アプローチの著者や評価との密接なつながりがうかがえる。

Macrocosmosは、低帯域幅のパイプライン並列学習向けに設計された、新しいトランスフォーマー型アーキテクチャ「ResBM(Residual Bottleneck Models)」に関する論文を公開しました。

https://arxiv.org/abs/2604.11947

ResBMは、パイプライン境界をまたいで残差型のエンコーダ・デコーダのボトルネックを導入し、明示的な低ランクのアイデンティティ経路を維持しながら、ステージ間の通信を削減することを目的としています。論文では、圧縮なしのベースラインに比べて収束に大きな損失を伴わずに、SOTAとなる128×のアクティベーション圧縮を報告しています。

実験において、最も強力な圧縮結果はMuonを使用したものです。論文はResBMを、分散化/インターネット規模のパイプライン並列学習の発展として位置づけています。

完全な開示:私はMacrocosmosで働いています。この論文をエンジニアリングチームから共有します

によって投稿 /u/network-kai
[リンク] [コメント]