主要モデルの多くで知能(推論力)が大幅に低下

Reddit r/LocalLLaMA / 2026/4/15

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • Redditのユーザーは、2026年4月中旬時点で、Claude、Gemini、z.ai、Grokを含む複数の主要LLMサービスにおいて、推論能力、指示追従、レイテンシ、応答の深さが低下したように見えると報告しています。
  • 投稿では、モデルが「不機嫌(grumpy)モード」のように振る舞い、基本的な指示を無視したり、単純なタスクに苦戦したり、短く浅い出力を生成したりしていると主張しています。
  • 問題の検証として、ユーザーはレンタルしたH100 GPU上でのGLM 5の性能と、同じモデルをz.ai経由で利用した場合を比較し、「H100ホストのインスタンスは正しく回答したが、z.aiでは正しくなかった」と述べています。
  • ユーザーは、モデル品質が運用上で意図的に下げられた可能性(例:量子化を約Q2程度まで低下させた)や、その他の要因で裏側で変更された可能性を推測しています。
  • 投稿では、ローカルで実行すること、GPUをレンタルすること、または量子化レベルを選択できるサービスを利用することで出力品質を取り戻すといった回避策が示唆されています。

2026年4月中旬の時点で、すべてのモデルに大きな知能の低下が起きているのを見つけました。

そしていいえ、私が話しているのはChatGPTだけではありません。

Claude(Sonnetに加えてOpus)、Gemini、z.ai、Grokなど、すべてが基本的な指示を無視し、単純なタスクに苦戦し、応答がとても遅くなり、出力は意図的に短くされていて非常に浅いように見えます。「不機嫌(grumpy)」なモードに入っているみたいです。カスタマイズや記憶の影響ではないことを確認するため、シークレット(incognito)モードでも試しました。

彼らが、あなたに自社のサービスの利用をやめさせたいように思えます。たぶん、もう私たちのデータは不要になったのでしょう。つい2週間前までは、これよりずっと賢かったのに。

これを確かめるために、H100をレンタルして、同じプロンプト(洗車場の車を洗いに行く話のやつ)で、両方の環境に対してGLM 5を試しました。レンタルしたGPU上で動くGLM5は、z.ai上のものと比べて正しく答えました。

彼らは量子化を本当にかなり低く、たとえばQ2くらいまで下げてしまったのでしょうか?

たぶんローカルで動かすか、GPUをレンタルするか、あるいは量子化レベルを選べるAIの月額サービスを使うのが道でしょう

によって投稿 /u/DepressedDrift
[link] [comments]