この人、Dan Woods は、KarpathyのautoresearchとAppleの「LLM in a Flash」論文を用いて、Qwen3.5 397B をわずか 48GB RAM のみで 5.7 t/s で動作させるハーネスへと進化させた。
X.com の記事 こちら、GitHub リポジトリと論文 こちら。
彼は、数学的には彼のハードウェア上で18 t/sが可能だと示唆しており、重みのアクセスパターンがより予測可能な密なモデルはさらに速くなる可能性がある、と述べている。
[リンク] [コメント]

