GPTとClaudeに対して、フロンティアのオープンウェイトモデルをすべてテストした私の経験

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者は、66のスキルから成るコードベース監査を対象に、10個のフロンティアのオープンウェイトモデルを1週間の実務ベースでテストした。OpenCodeとMCPを用い、同じファイルとツールを使って、GPT、Gemini、Claudeといった馴染みのあるクローズドモデルの出力と比較した。
結果はベンチマークの想定と大きく乖離した。オープンウェイトモデルのうち、著者が信頼できるレビューを生成できたのは2モデルのみで、残り8モデルは主張の裏取り（根拠ある検証）に失敗した。
GPT 5.4は全体として最も正確かつ根拠のある挙動を示し、欠けている境界条件の条項、ルーティングの抜け、曖昧な記述を確実に検出し、明らかな幻覚も回避できた。一方で、システム全体の統合的な推論を取りこぼすことがあった。
Claude Opusは、多数のファイルにまたがる情報の統合や、隣接しない要素同士の関連付けが最も得意だった。GLM 5.1は、唯一「信頼性の高い」正確さを示すオープンウェイトの選択肢だと特徴づけられたが、速度は遅かった。
他のいくつかのオープンウェイトモデルには、信頼を損なう体系的な問題が見られた。Minimaxでは確信に満ちた事実誤認（例：）、Kimiでは存在しないスキルの幻覚、DeepSeekでは数の誤りや論理の過度な一般化、Qwenではコンテキストオーバーフローによる不完全な実行（例：）が挙げられる。

私は実作業のために、オープンウェイトモデルを約1週間テストし、ChatGPT、Gemini、Claudeから自分がすでに知っていることと比較しました。ベンチマークが示唆することと、これらのモデルに検証させたときに起こることのギャップは、想像していたよりも大きかったです。

いちばん分かりやすい例を挙げます。私は説明の品質、ルーティング競合、重複について、66スキルから成るコードベースを監査しました。10のモデルで、同じファイル、同じOpenCodeのセットアップ、同一のツールとMCPを使用し、ChatGPT以外はOllama Cloudのサブスクリプション経由です。回答はリポジトリ内にあるので、すべての主張を裏取りできました。2つのモデルは、私が信用できるレビューを出しました。8つはできませんでした。

GPT 5.4が最も正確でした。見落とされている境界句を見つけ、2つのスキルが同じプロンプトにマッチし得るルーティングの抜けを捕捉しました。また、エージェントが正しくルーティングできないほど曖昧な説明であることも指摘しました。存在しないスキルをでっち上げたり、壊れているものを称賛したりもしません。GPTは正確で根拠に基づいていますが、システム全体にわたって常にうまく統合してくれるわけではありません。Claude Opusは、多くのファイルに散らばった情報を取りまとめ、隣接していない部分同士をつなぐのが得意で、GPTはときどきそこを見落とします。

GLM 5.1はすぐ後ろで、最も良い修正方針を出しました。誤った名前のスキルを指している壊れたクロスリファレンスと、境界（区切り）がゼロなのに同じスコープを両方主張しているスキルのペアを見つけました。私がテストした中で唯一、信頼できるオープンウェイトモデルです。ただし、ここにある他のすべてより明らかに遅いです。それでも、見つかった事実関係は一貫して正確で、他はそう言えません。

Minimax M2.7は文脈をうまく扱えます。時にはGPT 5.4やGLM 5.1をかすめるように上回り、Claude Opusのようにファイルをまたいで情報をつなぎます。ですが、それら2つが即座に見抜く種類の誤りを、常に別の形で事実として誤っています。監査では、存在するのに「ファイルが欠けている」と言い、存在しないのに「重複ディレクトリがある」と述べ、重なっている2つのスキルを「競合なし」と呼びました。誤りは具体的で、自信たっぷりです。そのため、検証にはコストがかかります。推論の構造は素晴らしいのですが、細部はしばしば間違っています。

そしてKimi K2.5がいます。これはすべてに5つ星を付け、リポジトリに存在しないスキルを分析しました。少なくとも2つのルーティング競合が明らかに見えるコードベースに対して、全方位で5つ星です。UI作業が得意らしく、さらにGLMやMinimaxとは違って速くてビジュアルです。とはいえ、根拠となる資料と照合して主張を確認する必要があるようなことは、私はそれを信用しません。

DeepSeek 3.2は誤ったスキル数を主張し、反例が1つあるだけで破綻するような「除外句」に関する包括的な断定もしました。

Qwen 3.5は最初の試行ではタスクを完了しませんでした。自分で、オーバーフローした自前の文脈ウィンドウを超えるところまで手取り足取り導く必要がありました。やっと終わったときは、66ではなく60と数え、スコープ外のスキルを持ち込み、「クラスターに『重複なし』」と言っていましたが、その説明同士は相互にクロスリファレンスしています。私は、これまで試したどのタスクでもQwenに感心させられたことがありません。Qwen 3 Coderは少なくとも正しい数を使っていましたが、レビューが薄くて肯定的すぎるため、プロダクトページのように読めます。

Gemini 3 Flash Previewは「検出された競合なし」と宣言し、ほとんどが称賛でした。ただし速いので、その速度ならオープンウェイトの代替の中で最善です。最初のざっくりした下見で、それが行動に直結しないなら、私はそれを選びます。精度が必要な作業には信用できませんが、その速度なら役に立ちます。

残りはノイズです。Nemotron 3 Superは、説明文がすでに含んでいるのにスキルが「ガイダンスを欠いている」と言いました。Mistral Large 3は、説明文が明確に解決しているのに「境界が曖昧」と呼びました。同じ種のエラーがそれぞれにあります。自信のある主張、簡単に反証できること、そして読み込んだ文脈ウィンドウの価値に見合わないことです。

1週間を通してのパターンはこうです。間違っていると言えるモデルは、称賛にデフォルトしてしまうモデルより、より有用な出力を一貫して出す、ということです。最も危険なのは、もっともらしい主張がたまたま偽であるケースです（「競合なし」「すべてのスキルに除外がある」など）。そのため、私は今GPT 5.4とGLM 5.1を使っています。Claudeも1メッセージ後に制限で動かなくならなければ、そこに入っていたでしょう。残りはまったく信用できません。ただし、Geminiは単純で機械的なタスクに使う場合に限っては別です。

submitted by /u/Anbeeld
[link] [comments]