ローカルLLMの世界に踏み込んでみたいです:何かヒントがあれば嬉しいです!

Reddit r/LocalLLaMA / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者はクラウド上のモデルから、ノートPCやGPU環境でローカルLLMを動かす方向へ移行しており、ここ数年での進化の大きさを実感しています。
  • Gemma 4やQwen 3.6のような新しいモデルを検討しており、48GBメモリのMacBook Proで qwen3.6-35b-a3b を約50トークン/秒で動かせたと報告しています。
  • 仕事の場での主な狙いは、クラウド/モデルの利用制限によるストレスを減らし、特にClaudeの上限にぶつかったときのギャップを埋めることです。
  • コミュニティの知見として、職場でローカルLLMをどう活用するのがよいか、量子化(quant)やUnslothのようなツールの考え方も含めて知りたいとしています。
  • 全体として本投稿は発表ではなく、実験と「できること」を探る実務的な質問です。

みなさんこんにちは!

私たちはとてもワクワクする時代に生きていて、4年前ならSOTA(最先端)だったようなモデルを、ノートPCとGPUで動かせるようになりました。

私は何年も前からクラウド上のモデルに取り組んできましたが、いまローカルモデルを掘り下げ始めています。

職場では、社内でいくつかの異なるAIプロジェクトをリードしていて、開発チーム(全員がclaudeを気に入っていて、実際に価値を感じてくれています)と一緒に取り組んでいますが、現時点での一番の悩みは制限があることです。

そこで、ローカルモデルで「できることの限界」がどこまでなのかを試し始めました。以前から注目はしていましたが、Gemma 4が興味を引き、その後幸運にも新しいQwen 3.6モデルが登場しました。

職場の開発チームにはMBP(MacBook Pro)を使っています(私のはメモリ48GBです)。そのため、新しいqwen3.6-35b-a3bモデルを約50 tok/sで動かせており、すごく良いです。claudeの制限が上限に達したときに埋めるために、職場でこうしたモデルをどう使うことを考えているのか、他の人の意見もぜひもっと知りたいです。

また、quant(?)やunslothについても学ぶことがたくさんあります。unslothは最近よく見かける存在です。

投稿者 /u/itsDitch
[link] [comments]