TL;DR; コーディング用に、RTX 5080 16GB + 64GB RAM DDR5 で実用的な速度と妥当なコンテキストサイズを満たす、ローカルで実行可能な最適なモデルはどれですか?(正直言うと、16Kのコンテキストサイズでは複数ファイルにまたがるコーディングには不十分ですよね xd)
長文版:
RTX 5080 16GB と 64GB RAM DDR5 を搭えたPCを持っています(AMD 9950x3d CPUと非常に良いマザーボードも付いています。大きな違いはないことは分かっていますが、CPUオフロードの方がわずかに速くなるので参考までに挙げておきます)。
また、MacBook Pro M4 Pro 24GB RAMも持っています(PCがより良いモデルを動かせる可能性があることを認識しているので、参考までに)。
私はこの両方のマシンを、ローカルでモデルを動かしてロールプレイに使ってきたので、何が合理的に動作するかをある程度知っています。また、RAMへどの程度の層をオフロードしても目立った速度低下がないかも把握しています。例として、PCで Cydonia 24B を量子化して実行していたところ、いくつかの層を CPU にオフロードせざるを得ませんでしたが、それでも非常に速く動作しました(ただしコンテキストはかなり小さく 16k)。また Magnum 70B を一度 Q4 か Q5 のどちらかで動かそうとしましたが、半分以上の層を RAM にオフロードしました。小さなコンテキストでも、速度はおおよそ 2-2.5 TPS で、コーディング作業としては受け入れ難いものでした :P
MacBook ではモデルを多くいじってはいませんが、 FP16 Qwen 3.5 4B を実行してスムーズに動作しました。また IQ4_XS で Qwen 27B を実行してみましたが、こちらもかなり良好でした。ただし kv キャッシュの余裕が少し残っていたため、コンテキストサイズはあまり大きくありませんでした。
したがって、最善の方針は Windows PC 上でモデルを実行し、MacBook で LAN 経由で接続することだと考えています(これが私がコーディングに使っている方法であり、コーディング/他のアプリの実行に計算資源を奪われる心配がなく、PC はモデルだけを実行し他のことは何も行わない状態にできます)。
私はプロの開発者で、職場では Opus 4.6 や GPT 5.4 の高い思考を無制限に使える環境に慣れていますが、現実にはローカルでこれだけの品質を得るのは難しいのが残念です( XD )
ただし、ロールプレイのおかげでローカル/クラウドAIにより関心が高まっており、それをコーディングにも活かせるのではないかと考え始めました。まだ何のためか分かっていませんが、誰にも使われないような別のアプリをコーディングするための趣味のようなプロジェクトではなく、少し試してみて、ローカル環境でどれくらい良くなるかを見たいのです。
私は主に新しい Qwen 3.5(例: 35B A3B や 27B)を検討していましたが、量子化するとコーディング能力が非常に低下すると聞いており、ローカルでフルウェイトで実行することは難しいでしょう。おそらくフルウェイトの Qwen3.5 9B を動かせるかもしれませんが、それが十分かどうかは分かりません。
私にとって重要なのは:
- モデルが少なくとも2ファイル以上に跨って作業できること(したがってコンテキストサイズは妥当であるべきで、少なくとも32k、できれば64k以上が望ましい)
- It has to be a




