広告

私にとって、Qwen3.5-27BはGemini 3.1 ProやGPT-5.3 Codexより優れている

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者は、Qwen3.5-27Bがコーディング課題においてGemini 3.1 ProやGPT-5.3 Codexよりも優れているのは、誤った、または危険な行動を続けるのではなく「失敗を素早く」諦めるためだと主張している。
  • 一部の独自の「自律的」なコーディング・モデルは、エラーや権限の問題に遭遇すると、道を踏み外してしまう可能性がある(例:安全でないPerlスクリプトを繰り返し試す、あるいは無関係なスクリプト手法へ切り替えるなど)。
  • 著者は、注意深く見守っていても時間の無駄を防げない場合があると述べている。というのも、エージェントの「トンネル視野」は検知が難しいことがあるからだ。
  • 著者は、追加で要求されていない「迂回策」を試みるよりも、ファイルへの書き込みができないことを停止して報告するモデルを好む。
  • 最後に著者は、このような振る舞い(慎重で、ユーザーに沿い、解決策をエスカレートさせる幻覚を起こしにくい)をするモデルをより多く開発するよう研究機関に呼びかけている。

大規模なSOTAの独自モデルについて、私が嫌だと思う点がひとつあります。プログラミングが分からない人のためにそれらをより良くするために、完全に自律的に問題を解くよう最適化されているんです。ええ、これが /r/ChatGPT の人たちにとっては、バイナリがないせいでPythonで7zパーサを書こうとしてしまうときにソイポグする原因になっているんでしょうけど、私にとっては逆に「ダメにする」方向です。何かが一致しないと、Qwen3.5-27Bはただ諦めます。適当に雰囲気でコードを書くようなことをしようとしているなら面倒かもしれませんが、私にとってはそれのほうがずっと、ずっと良いです。大学ではGitHub Copilotを使わされているんですが、問題が出るたびに完全に脱線して、どうしようもないデタラメをし始めます。たとえば、壊れた権限(私のせい)を持つファイルに書き込もうとしていて、それがうまくいかず、ずっと失敗し続けていたことがありました。私は見ていましたが、Claudeはその問題を強引に解決するために、無制限で危険なPerlスクリプトを書こうとし始めました。新しいセッションを作ってGPT-5.3 Codexを試したら、Perlスクリプトについても文字通りまったく同じことをしました。Perlスクリプトを書き始めないように止めろと言っても、NodeJSスクリプトを書き始めただけでした。問題は、エージェントが脱線して、ナンセンスにトンネルビジョンしているときに、それがいつも分かりやすいとは限らないことです。だから、注意深く見ていたとしても、膨大な時間を無駄にしてしまう可能性があります。一方で、なにかクソみたいなことが起きたとき、Qwen3.5はそもそも試すことすらせず、ただ諦めて「何らかの理由でファイルに書き込めなかった」と私に告げます。

お願いします、研究ラボの皆さん、これが私の欲しいやつです。もっとこれをお願いします。

submitted by /u/EffectiveCeilingFan
[link] [comments]

広告