広告

OpenRouterで「Qwen 3.6 Plus Preview」が早くも登場。エージェント型コーディング課題で徹底的に試した

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Qwen 3.6 Plus PreviewがOpenRouterに「何の告知もなく」登場し、無料の179Bモデルとして提供されました。1Mのコンテキストウィンドウを備え、特に構造化されたエージェント型コーディング課題で評価されました。
  • ツール利用型のコーディングワークフロー(ファイルを読み取り、FIND/REPLACEの構造化パッチブロックを作成し、シェルコマンドを実行し、ビルド失敗を自己修正する)では、Qwen 3.6 Plus Previewは、指示フォーマットに従えないモデルや、反復を重ねるうちに行き詰まるモデルと比べて大幅に上回りました。
  • C#の計算機リファクタリングでは、Qwen 3.6 Plus Previewは単一のイテレーションでタスクを完了し、約8%のコンテキスト使用量でクリーンなビルドを実現しました。これは、必要な「パッチして実行する」ループへの高い遵守を示しています。
  • C# 14/.NET 10の最新イディオムを用いたより難しい書き換えでは、最初に構文ミスをしましたが、ビルドエラーを検出して修正に成功し、5回のイテレーションで自己修正を完了しました。代替案よりも自己修正の信頼性が高いことが分かります。
  • テスターは、ReadOnlySpan、record struct、パターンマッチング、XMLドキュメントなど、多くの現代的なC#構文に強いと評価しました。一方で、C# 14の暗黙的な拡張型のような新しい言語機能にはギャップがあることや、トークン出力がより速くバッチ化される挙動を観察しました。

注:これを書くのにClaudeを使いました。調査結果は私のものですし、テストは実際に行いました。ただ、これを正確にしたいのと、私はタイピングが苦手なので、役に立つものを他の人にも共有したいんです!

というわけで、これが昨日 OpenRouter に何の予告もなく登場しました。無料、179Bパラメータ、1Mコンテキストです。私は自分用のツールを作っていて、IDE上でローカルに動くカスタムのエージェント型コーディング支援者を開発しているのですが、新しいワークステーション構成のためにどのGPUを買うべきかを見極めるために、モデルをこのツールに対してテストしていました。

そのアシスタントは、独自のディレクティブ形式を使います。モデルには、ファイルを読み取る(READ)こと、FIND/REPLACE ペアを使った構造化された PATCH ブロックを出力すること、シェルコマンドを実行すること、ビルドが失敗したら自分で自己修正することが求められます。要するに「コードを書いて」ではなく、構造化されたツール利用ループです。

モデルごとの結果は以下の通りです:

qwen3-coder-next - 完全に失敗。反復ループにハマってしまい、ファイル名が判読不能な文字列(DevToolToolToolToolWindowToolTool...)に崩れていきました。ディレクティブ形式をまったく追えませんでした。

qwen3-235b-a22b - タスクの概念は理解できました。システムプロンプトに少数例(few-shot)を追加すると、有効な PATCH 構文は出せるようになりましたが、具体的な行範囲を読まずに内容を推測してしまい続けました。コンテキスト98%まで消費して3イテレーション使っても、タスクを完了できませんでした。

Qwen 3.6 Plus Preview - 雲泥の差。最初のタスク:Calculatorクラスをリファクタリングし、演算子の優先順位を考慮した再帰下降式パーサを追加し、テストを書き、ビルドを実行しました。すべて1回のイテレーションだけで、コンテキスト使用は8%でした。クリーンビルドで、エラーはゼロ、初手で通りました。

2つ目のタスクはもっと難しく、同じファイルをモダンな C# 14 / .NET 10 のイディオム(ReadOnlySpan、field キーワード、switch 式など)に書き換える必要がありました。最初の試みでは switch 式の構文を間違えました(式アームにステートメントを入れようとしました)が、ビルドエラーを認識してファイルを書き直しました。クリーンビルドまでに合計5イテレーションかかりました。完璧ではありませんが、同じミスをループするのではなく自己修正しました。

うまくできた点:

自動プロパティでの ??= と field キーワードの使用

パーサ全体での ReadOnlySpan<char>

プライマリコンストラクタを持つ record struct

is で '+' または '-' を使ったパターンマッチング

適切な XML ドキュメントコメント

ゼロ除算の安全性のために、パーサ内で独自の Divide() メソッドを再利用(実際のアーキテクチャ的な思考です)

分からなかった点:

C# 14 の暗黙の拡張型。従来の static な拡張メソッドにフォールバックし、新しい構文を使うよう繰り返し求めても無視しました。データ学習のギャップですね。プレビュー段階の機能にとっては、特に驚くことではありません。

文字列パースのメソッドにロジックバグがあり、実行時に失敗していたはず

速度:トークンが速く届きます。クラウドモデルから慣れているよりも明確に速いです。個々のトークンをストリーミングするというよりチャンクをバッファしているようで、出力がブロックのように表示されます。

ただし落とし穴:API専用です。重みはなく、GGUFもありませんし、ローカルで動かすこともできません。Qwenのラインナップにおける「Plus」表記は、歴史的にプロプライエタリなホスト型モデルを意味してきました。Qwen3.5-Plus には最終的にオープンウェイト版(397B-A17B)が出ましたが、希望はあります。ただ、まだ何も発表されていません。さらに無料枠なので、モデル改善のためにあなたのプロンプトデータを収集しているということでもあります。

結論:エージェント型のコーディングワークフローのためにモデルを評価しているなら(「関数を書いて」だけでなく、エラー回復を伴う構造化された複数ステップのツール利用)、私がテストした中では、実際に競合できる“オープンっぽい”最初のモデルです。3.5から3.6へのジャンプは段階的ではありません。エージェント的な振る舞いは明確な飛躍です。

あとは、96GBのGPUで動かせるように重みをリリースしてくれればいいだけです。

submitted by /u/pkailas
[link] [comments]

広告
OpenRouterで「Qwen 3.6 Plus Preview」が早くも登場。エージェント型コーディング課題で徹底的に試した | AI Navigate