| 約1週間、ローカル環境で Qwen3 Coder Next を動かしてみました。紙の上では数字がとても良かったです。プロンプト処理が約1000 t/s、生成が約37 t/s。私はRalph-styleのエージェント的なアプローチを使い、モデルがタスクを自律的に進める間は、人間側の関与は最小限にしていました。 問題は?バックエンドが常にクラッシュしていました。2時間ほど連続で安定して動いたときでさえ、実際の進捗はあまりにも遅い。私の実験プロジェクトは110のタスクに分割されていました。いい日でも、Qwen3 Coder Next がそのうち15個くらいしか片付けられません。別のバックエンドや別の設定でも試しましたが、結局同じでした。 そこで最終的にうんざりして、もう少し重いものを試すことにしました:Qwen3.5 122B。 スペックは明らかに悪いです。私のRTX 5070 TI + いわゆるポテトDDR4 96gb環境だと、プレフィルが約700 t/s、生成が17 t/s程度。ざっくり言えば、全体を通してスループットは半分くらいです。速度低下を体感するだろうとは思っていました。 でも実際に起きたことは予想を裏切りました。122Bモデルは、同じ時間でだいたい2倍の作業量を完了させていました。タスクはより多く進み、失敗は減り、見守りの手間も少なく済みます。バックエンドは安定したままで、出力に必要なリトライ回数も減り、コードの品質が高いので、修正のための行ったり来たりが少なくなりました。 こういう、直感に反するハードウェア/AIの学びの1つです。生のトークン速度は、現実世界のスループットとは一致しません。幻覚が増える、クラッシュが増える、コードが不安定になるような速いモデルは、節約できたトークン数以上に、最終的な時間を奪ってしまいます。 もしあなたのハードウェアで対応できるなら、複雑なエージェント的コーディングタスクには、122B+規模のモデルを試すことを本気でおすすめします。私のプロジェクトでは、その差が昼と夜ほどありました。 [link] [comments] |
遅いほど速い:Qwen3 Coder NextからQwen3.5 122Bに切り替えた理由
Reddit r/LocalLLaMA / 2026/3/27
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- 利用者は、Qwen3 Coder Nextが紙の上では速く見えたものの(プロンプト処理が約1000 t/s、生成が約37 t/s)、ローカルで1週間テストしたところ、繰り返しバックエンドがクラッシュする問題が発生したと報告している。
- エージェント型で「手取り足取り」度の低いワークフローでは、異なるバックエンドや設定を試しても、失敗や不安定さのために、良い日でも110件中約15件しかタスクを完了できなかった。
- 利用者はQwen3.5 122Bに切り替えた。このモデルは利用者の環境では生のスループットが劣り(約700 t/sのprefill、約17 t/sの生成)ため、速度低下を見込んでいた。
- しかし、トークン速度が低いにもかかわらず、122Bモデルは同じ時間内に総作業量の約2倍を完了した。加えて、失敗が少なく、リトライも少なく、バックエンドの挙動がより安定しており、必要な人手修正が減るだけでなくコード品質も高かった。
- この投稿は、実際のエージェント型コーディングのスループットは、トークン/sのような生の指標だけでなく、安定性や出力の信頼性に左右されると主張し、ハードウェアに余裕があるなら複雑なコーディングエージェントでは122B+モデルを試すことを推奨している。
広告
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



