[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論! | smolcluster

Reddit r/MachineLearning / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 自作の allToall アーキテクチャを使用して、3 台の Mac Minis(M4、各 16 GB RAM)にまたがって Llama3.2-1B-Instruct のデータ並列推論を実演する。
  • このアプローチでは、各ワーカーが他のすべてのワーカーとアクティベーションを交換し、それらをデコード前に平均化することで、モデルが単一デバイスに収まらない場合でもデータ並列性を実現する。
  • このアーキテクチャは、サーバーを経由したマスター-ワーカ構成とは異なり、任意のワーカーが他のワーカーと直接通信できることを可能にする。
  • セットアップは 3 台の Mac Minis と Thunderbolt 4 ケーブルを使用しており、実装と手順は GitHub に公開されている。

smolclusterを用いた3台のMac Minis(各16GB RAM、M4チップ)上でのLlama3.2-1B-Instructモデルの推論を、もう一つのチラ見としてお届けします!

今日は、allToall アーキテクチャを用いたデータ並列性実装のデモです。推論は、すべてソケットライブラリだけを使用して、自作しました。

  • データ並列性はデータを多数のGPU間で共有できますが、各GPUには完全なモデルが含まれます。単一のGPUに収まらないデータを扱う場合に使用します。
  • 私は、各ワーカーが互いに接続されるallToallアーキテクチャを採用しました。推論の際には、すべてのワーカーが自分の活性化を互いに送信し、デコードを開始する前にすべての活性化の算術平均を取ります。
  • つまり、任意のワーカーと直接対話できます。マスター-ワーカーノードのようにサーバーとのみ通信できるのとは異なります。

推論用のallToallアーキテクチャによるDPの基本理論はこれで以上です!

セットアップ:

  • 3台のMac Minis(2025年モデル、M4、各16 GB RAM)
  • Thunderbolt 4 ケーブル

GitHub

投稿者: /u/East-Muffin-6472
[リンク] [コメント]

[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論! | smolcluster | AI Navigate