| 通信オーバーヘッドを削減するため、Covenant AIは DiLoCo の上に構築された提案手法 SparseLoco を使用し、同期頻度を低減し、ローカル AdamW オプティマイザを用い、帯域幅のボトルネックを解決するために積極的な Top-K のスパース化を追加しています。 [リンク] [コメント] |
1Covenant/Covenant-72B: 分散型の許可不要GPUノード上で訓練されるこれまでで最大のモデル
Reddit r/LocalLLaMA / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- Covenant AIは Covenant-72B を分散型の許可不要GPUノード上で訓練される最大のモデルとして発表し、分散型機械学習における重要な節目となった。
- この訓練には DiLoCo の上に構築された SparseLoco を用いて同期頻度を低減し、通信オーバーヘッドを削減するためローカルな AdamW オプティマイザを採用している。
- また、分散訓練環境での帯域幅ボトルネックに対処するため、積極的なトップ-Kスパース化を採用している。
- この情報は Reddit の投稿と HuggingFace のリポジトリにリンクされており、コミュニティ主導の実験を示している。
関連記事
すべてのPRをセキュリティバグでレビューするAIを作った — その方法(2026)
Dev.to
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning

自分の OpenClaw AI エージェントを4分でデプロイ — 月額5ドルのサーバーで私の生活を動かすようになった
Dev.to
AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか
Dev.to

BAMLがLLM搭載システムにエンジニアリングの規律をもたらす方法
Dev.to