smolclusterを用いた3台のMac Minis(各16GB RAM、M4チップ)上でのLlama3.2-1B-Instructモデルの推論を、もう一つのチラ見としてお届けします!
今日は、allToall アーキテクチャを用いたデータ並列性実装のデモです。推論は、すべてソケットライブラリだけを使用して、自作しました。
- データ並列性はデータを多数のGPU間で共有できますが、各GPUには完全なモデルが含まれます。単一のGPUに収まらないデータを扱う場合に使用します。
- 私は、各ワーカーが互いに接続されるallToallアーキテクチャを採用しました。推論の際には、すべてのワーカーが自分の活性化を互いに送信し、デコードを開始する前にすべての活性化の算術平均を取ります。
- つまり、任意のワーカーと直接対話できます。マスター-ワーカーノードのようにサーバーとのみ通信できるのとは異なります。
推論用のallToallアーキテクチャによるDPの基本理論はこれで以上です!
セットアップ:
- 3台のMac Minis(2025年モデル、M4、各16 GB RAM)
- Thunderbolt 4 ケーブル
[リンク] [コメント]




