[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論！ | smolcluster

Reddit r/MachineLearning / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

自作の allToall アーキテクチャを使用して、3 台の Mac Minis（M4、各 16 GB RAM）にまたがって Llama3.2-1B-Instruct のデータ並列推論を実演する。
このアプローチでは、各ワーカーが他のすべてのワーカーとアクティベーションを交換し、それらをデコード前に平均化することで、モデルが単一デバイスに収まらない場合でもデータ並列性を実現する。
このアーキテクチャは、サーバーを経由したマスター-ワーカ構成とは異なり、任意のワーカーが他のワーカーと直接通信できることを可能にする。
セットアップは 3 台の Mac Minis と Thunderbolt 4 ケーブルを使用しており、実装と手順は GitHub に公開されている。

smolclusterを用いた3台のMac Minis（各16GB RAM、M4チップ）上でのLlama3.2-1B-Instructモデルの推論を、もう一つのチラ見としてお届けします！

今日は、allToall アーキテクチャを用いたデータ並列性実装のデモです。推論は、すべてソケットライブラリだけを使用して、自作しました。

データ並列性はデータを多数のGPU間で共有できますが、各GPUには完全なモデルが含まれます。単一のGPUに収まらないデータを扱う場合に使用します。
私は、各ワーカーが互いに接続されるallToallアーキテクチャを採用しました。推論の際には、すべてのワーカーが自分の活性化を互いに送信し、デコードを開始する前にすべての活性化の算術平均を取ります。
つまり、任意のワーカーと直接対話できます。マスター-ワーカーノードのようにサーバーとのみ通信できるのとは異なります。

推論用のallToallアーキテクチャによるDPの基本理論はこれで以上です！

セットアップ: