みなさんこんにちは!
私たちはとてもワクワクする時代に生きていて、4年前ならSOTA(最先端)だったようなモデルを、ノートPCとGPUで動かせるようになりました。
私は何年も前からクラウド上のモデルに取り組んできましたが、いまローカルモデルを掘り下げ始めています。
職場では、社内でいくつかの異なるAIプロジェクトをリードしていて、開発チーム(全員がclaudeを気に入っていて、実際に価値を感じてくれています)と一緒に取り組んでいますが、現時点での一番の悩みは制限があることです。
そこで、ローカルモデルで「できることの限界」がどこまでなのかを試し始めました。以前から注目はしていましたが、Gemma 4が興味を引き、その後幸運にも新しいQwen 3.6モデルが登場しました。
職場の開発チームにはMBP(MacBook Pro)を使っています(私のはメモリ48GBです)。そのため、新しいqwen3.6-35b-a3bモデルを約50 tok/sで動かせており、すごく良いです。claudeの制限が上限に達したときに埋めるために、職場でこうしたモデルをどう使うことを考えているのか、他の人の意見もぜひもっと知りたいです。
また、quant(?)やunslothについても学ぶことがたくさんあります。unslothは最近よく見かける存在です。
[link] [comments]



