M5 Max 128GB、17モデル、23プロンプト:Qwen 3.5 122Bは今もローカルの王者

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、ローカルで動かせる大規模言語モデルの中で、Qwen 3.5 122Bが依然として最有力の選択肢だと主張し、ローカル利用向けに入手可能な多くの他のオープンモデルと比べて高い性能を発揮している点を指摘しています。
  • オープンウェイト(公開ウェイト)モデルにおける最近の勢いを強調し、特にGemma 4の「K=Vグローバル注意」や「層ごとの埋め込み」など、アーキテクチャと展開(ロールアウト)の革新を称賛しています。
  • 以前はレンタルGPUの計算リソースに頼っていたものの、著者はM5 Max搭載のMacBook Pro(統合メモリ128GB)を使ってモデルをローカルで動かす自宅環境へ切り替えたと述べています。
  • 本記事では、クラウドホスティングや仲介サービスを通じてデータを転送するのではなく、ローカル推論を行うことで得られるプライバシー上の利点を強調し、子ども/学校関連のデータはすべて端末上に保持するとしています。
  • 著者は、LLMを実務的に活用するワークフローを説明しています。ログイン画面、スライド資料、Webページなどに散らばりがちな、サイトごちゃ混ぜの学校情報をLLMが取りまとめ、締切、成績、提出物(期日付きの項目)などを抽出します。
M5 Max 128GB、17モデル、23プロンプト:Qwen 3.5 122Bはまだローカルの王者

最後のLlama(Scout/Maverick)がリリースされたのは1年前。その後は、米国ベースのリリースがほとんどなくなりました。Granite 3.3、GPT-OSS 20B & 120B、Nemotron 3 Nano / Super、そして今度はGemma 4。中国のオープンモデルの出力やQwens、DeepSeeks、Kimis、MiniMaxes、GLMs、MiMos、Seedsなどと比べるなんて、もう無理ですね。。

Gemma 4は新鮮な空気そのものです。モデル自体だけでなく、公開の仕方や、その美しさ、そしてイノベーション:グローバル・アテンションにおけるK=V、層ごとの埋め込み(Per-Layer Embeddings)、三モーダルのミニ(E4B、E2B)など。

私のローカルLLMの利用の大半は、これまでレンタルGPU経由でした。Google Cloud、AWSなど。ですが約1か月前に全部自宅に持ち帰ることにして、ピカピカのM5 Max MacBook Pro 128GBを買いました。これはすごいマシンですが、ローカルで動かせるモデルの幅も広げてくれます。統合RAM 128GBがあるので、そのまま。

コスト以外に、モデルをローカルで動かす本当のメリットはプライバシーです。データを「OpenRouter => Model A」に送るのも、あるいは(NVIDIA A100の)AWSのP4d/P4deインスタンスでホストするのも、正直なところ気軽にはできません。結局、それは自分のデータであって、家にあるわけじゃない。つまり、こちらの場所に置いているわけではないからです。

でも、私のノートPCなら。

LLMに関して言えば、研究やコーディングでない限り、実用性を見つけるのは難しいです。とはいえ子どもがいて、学校もあります。もし組織面で何かがめちゃくちゃになっていたら、子どものデータが存在するバラバラのシステムがいくつもあって、コミュニケーションも一貫しない――それはまさに米国の公立学校です。ですが、親であることは楽しいし、この混沌はLLMが筋の通った形に整理するのにとても合っています。ローカルLLMは最後のピースを解決します。子どものデータは自宅のノートPCにとどまります。

こうして始まりました。128GB対応の獣にできる限り読み込み、どのモデルが何に向いているか調べ始めました。流れは難しくありません。学校に紐づいたさまざまなWebサイトに行きます。中にはAPIがあるものもあれば、playwrightで画面スクレイプが必要なものもあります。両方の要素に加えて、妙なキャプチャやログインがあるものもあります。などなど。次に「a」というサイトにいると、ある先生は「スライド13」内のスライドデッキの中にものが入っている一方で、別の先生は見えないようなフォルダの中に入れていたり、別のシステムでは、無関係なリンクが大量に埋め込まれている奥に埋まっていたりします。LLMはこうしたあいまいさを全部スカウトして、明日用の、今週用の「はっきりしたシグナル」を返してくる必要があります。成績がどういうものか、なぜそうなっているのか、など。やはりLLMにとっての絶好のユースケースです。目的が明確で、最適化すべき非構造のテキストが大量にあるからです。

いま考えているかもしれません。「OpenClaw」のこと? そしてそれは正しいです。私がそこから始めたのは事実です。ですが、OpenClawは、その背後にあるLLM群と同等にしか良くないことに気づきました。さらに、汎用のOS cronで「school skill」を呼び出すようにすると、LLMに送られるトークン数が10Kから約600にまで減ります。VPS / OpenRouter上でOpenClawを動かしてはいますが、これは(たぶんまだ)それに使うのにいいケースではありませんでした。

ローカルのモデルをランキングするために、私は長年かけて、最強どもで解決しなければならなかったいくつかの課題を集めました。Claude、OpenAI、Grok、Geminiです。これらは、私たちが話したことを全部記録してくれるので便利です(ただし「ローカルで」ではありません)。とはいえ今回は、そのおかげで、いくつかの課題を集めて、ルーブリック付きでプロンプトに変換する機会になりました。

次に、私にとって何がうまくいくのか(広告されていることや、他の人にとってうまくいくこと)を整理し始めるスクリプトを書きました。スクリプトはすぐに大きくなりましたが、見た目や操作感が欠けていたのでUIを追加しました:https://github.com/tolitius/cupel

一般的な課題に加えて、ツール利用やマルチターン(ツール呼び出しで複数ステップを構成)に焦点を当てた、学校関連の活動に特化した特定のプロンプトをいくつか使いました。

数晩と試行錯誤の末、「Qwen 3.5 122B A10B Q4」が最適で、ほとんどのタスクをうまく解決する中で最も近いことが分かりました。ちなみにうれしいサプライズだったのが「NVIDIA Nemotron 3 Super 120B A12B 4bit」です。これ、すごく気に入っています。速いし、異常なほど出来が良い。 「異常なほど」と言うのは、これまでのNemotronはこのモデルほど実際に際立っていなかったからです。

Gemma 4以前

そして、その後Gemma 4が登場しました。

興味深いことに、少なくとも私の用途では、「Qwen 3.5 122B A10B Q4」は「Gemma 4 26B A4B」よりもまだ良い結果を出し、さらに「Gemma 4 31B」とは正確性の面でだいたい50/50なのですが、スピードでは圧勝です。 「Gemma 4 31B」のフル精度は、M5 Max MacBook Pro 128GBで1秒あたり約7トークン。一方で「Qwen 3.5 122B A10B Q4」は1秒あたり50〜65トークンです。

(こちらでは、私側の設定ミスを避けるためにOpenRouter経由でGemma 4をテストしました+2倍速)

ただ、Gemmaをよりうまく動かすために「Gemma流(The Way of Gemma)」を学ぶ必要がまだあるのだと思います。サイズに対して品質が大きく伸びていて、本当に飛躍です。結局、31Bという規模でも、密になっているとはいえ、122Bと並ぶところにいるわけです。

submitted by /u/tolitius
[link] [comments]