ResBM:128×のアクティベーション圧縮を達成する、低帯域幅パイプライン並列学習のための新しいトランスフォーマー系アーキテクチャ [R]

Reddit r/MachineLearning / 2026/4/17

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ResBM(Residual Bottleneck Models)は、ステージ間の通信を削減することで、低帯域幅環境下におけるパイプライン並列学習の効率を高めることを目的とした、新しいトランスフォーマー系アーキテクチャである。
  • このモデルは、パイプライン境界をまたいで残差型のエンコーダ–デコーダ・ボトルネックを用いながら、学習挙動を保つための明示的な低ランクのアイデンティティ経路を維持する。
  • 論文では、非圧縮のベースラインと比べて収束への影響がほとんど報告されない形で、128×のアクティベーション圧縮を含む最先端の結果が報告されている。
  • 実験では、Muonオプティマイザを用いた場合に最も強い圧縮性能が示され、本研究はResBMを分散化された、あるいは「インターネット級」のパイプライン並列学習に関連するものとして位置づけている。

Macrocosmosは、低帯域幅のパイプライン並列学習向けに設計された新しいトランスフォーマーベースのアーキテクチャ「ResBM(Residual Bottleneck Models)」に関する論文を公開しました。

https://arxiv.org/abs/2604.11947

ResBMは、パイプライン境界にまたがって残差型のエンコーダー・デコーダーのボトルネックを導入し、明示的な低ランクのアイデンティティ経路を保持しつつ、ステージ間の通信を削減することを目標としています。この論文では、圧縮していないベースラインに比べて収束の大きな損失なしに、SOTAで128×のアクティベーション圧縮が報告されています。

彼らの実験では、最も強力な圧縮結果はMuonを用いたものであり、この論文はResBMを、分散型/インターネット規模に耐えるパイプライン並列学習の発展として位置づけています。

投稿者: /u/network-kai
[リンク] [コメント]