要約 - ソフトウェア開発では、Qwen3.6 27Bなら5090はM5 Maxに比べて約3倍の速度が出て、コードをどんどん進められます。一方でM5 Maxは約4倍のメモリが使え、より高い量子化やより大きなコンテキストを使えます。どちらを選びますか?また、なぜでしょうか?
このテーマについてここ数週間、かなり調べてきましたが、それでも結論を完全に決めきれません。できれば、私がこれから行う予定の作業の種類に関して、実際にこの種のハードを使ったことがある方の意見を聞きたいです。
私はソフトウェア開発にQwen 3.6 27Bを使うつもりです。理想としては、どうしても分からないことがあったときにOpus/GPTへたまにAPI呼び出しをする以外は、クラウドモデルへの依存をできるだけなくしたいです。M4 MaxのMBPで動かしてみましたが、生成するコードの内容としては非常に良好でした。速度の面では……正直かなり厳しいです。たった1つの機能を実装させただけで、完了まで約1時間20分かかりました。もちろん、これはGGUFモデルで、llama-serverもあまり最適化されておらず、足場となる仕組み(scaffolding)のない巨大なリポジトリでの実行だったので条件は悪いとはいえ、それでも待ち時間としてはかなり長いです。
とはいえ、十分なRAMがあれば複数のモデルを同時にロードできるので、27Bをオーケストレーター役として使い、上位の計画を立てたうえで、35B A3Bのサブエージェントを起動して雑務を担当させる、という可能性を考えました。たとえばコードベースの探索/検索、場合によってはコードを書くことまでやらせます。これなら確実に処理が速くなり、メインエージェントのコンテキストをきれいに保つ助けにもなるはずです。ただし27Bはコードを書くのが得意なので、全体の出力にどれくらい影響するのかは分かりません。
M5 MaxはM4 MaxよりもPP速度がかなり良く、さらにトークン生成も少しだけ良いです。MTPのような新しい手法やMLXの使用によって、M5 MaxはM4 Maxよりずっと高速になるはずで、エージェント型開発で「実用的な速度」に近づく可能性もありますが、そこは100%確信があるわけではありません。128GBのRAMがあることで、必要ならより大きいモデルも使えますが、主目的はコードで、その他は二次的な位置づけです。
しかし5090は速度面でM5 Maxを圧倒します。MTPを使えば、その差はさらに広がるでしょう。私の理解では、KVキャッシュのオフロードを使って、オーケストレーター/エクスプローラのサブエージェントのコンテキストウィンドウを疑似的に再現でき、結果として同じようなことができます。唯一の欠点は、32GB VRAMだとQ4/Q5に縛られ、約200kコンテキストにする必要があることです(画像も使いたいので、そこからさらに減ります。エラーのスクリーンショットを貼り付けられるのは便利で、失いたくありません)。人々は128kコンテキストで十分だと言いますが、その場合はこの問題は杞憂かもしれません。それでも、パフォーマンス上の理由で128kコンテキストしか使わないのと、物理的にそれが支えられないのとでは、心理的な壁があります。たぶん別のプロジェクトでは、膨大な量のファイルを取り込んで使うことになり、本当にもっと大きいコンテキストウィンドウが必要になるかもしれません。ですが、今は分かりません。
価格は一旦方程式から外します。5090を買うにはそれを支える追加のハードウェアも必要になるからです。VRAMを最大化するために、ヘッドレスでLinuxで動かすのでも構いません。また、ポータビリティの面も特に気にしていません。どちらの機器でも、LLMを動かして常時待機させておけば、他のデバイスからリモート接続できます。
ただ、私はこれら2つのデバイスのどちらも実際に試したことはありませんし、簡単に試用して検証することもできません。特に5090は、私の周りの店舗ではどこも最終セールの状態で、さらにそのスペックのM5 Maxは到着まで数週間かかります。ですので、どちらか、あるいは両方を使ったことがある方にぜひ聞きたいです。どちらを選ぶなら良いと思いますか?私が見落としているメリット/デメリットはありますか?決定を完全に左右しうる不足情報が何かあるでしょうか?など。
読んでいただきありがとうございます。
[link] [comments]




