増え続ける開発者やAIパワーユーザーが、ソーシャルメディア上でアンスロピックに対し、Claude Opus 4.6とClaude Codeのパフォーマンスが低下していると非難している。意図的に、あるいは計算(コンピュート)制限の結果としてだとされ、ここ数週間前に比べて同社のフラッグシップのコーディングモデルが、能力が落ちたように感じられ、より信頼性に欠け、トークンの使い方がより無駄だと主張している。
こうした不満は、ここ数週間の間にGithub、X、Redditで急速に広まった。複数のリーチの大きい投稿では、Claudeが持続的な推論が苦手になった、途中でタスクを放棄しやすくなった、あるいはハルシネーションや矛盾を起こしやすくなった、といった主張がなされている。
一部のユーザーは、この問題を「AIの縮小(shrinkflation)」として捉えた。つまり、顧客が同じ価格でより弱い製品を買っている、という考え方だ。
また別のユーザーはさらに踏み込み、アンスロピックが需要が急増する期間にClaudeを抑制、あるいは何らかの形で下方調整している可能性があると示唆している。
しかし、これらの主張は未だ立証されておらず、アンスロピックの従業員は容量を管理するためにモデルを劣化させていることを公に否定している。同時にアンスロピックは、ここ数週間で使用制限や推論の初期設定に実際の変更があったことを認めており、それが議論全体をさらに燃えやすくしている。
VentureBeatは、最近の非難についてさらなる説明をアンスロピックに求めた。具体的には、推論の初期設定、コンテキストの扱い、スロットリング挙動、推論パラメータ、ベンチマークの手法に最近の変更があり、それが不満の急増を説明し得るのか、という点を含む。
また、アンスロピックが最近のベンチマーク関連の主張をどのように説明しているのか、そして顧客を安心させる追加データを公開する予定があるのかも尋ねた。アンスロピックのスポークスパーソンは、質問に個別に答えることはせず、代わりにClaude Codeの作者ボリス・チェルニーによるXの投稿とClaude Codeチームメンバーのタリク・シヒビルによるXの投稿を参照した。いずれも、それぞれOpus 4.6のパフォーマンスと使用制限に関するものだ。以下のとおり、2つのX投稿はいずれも参照され、リンクも貼られている。
AMDのシニア・ディレクターからのものも含む、バイラルなユーザーの不満:Claudeは能力が落ちたと主張
最も詳細な内容の公開不満のひとつは、2026年4月2日にStella Laurenzoによって提出されたGitHub issueが起点になっている。この人のLinkedInプロフィールでは、彼女がAMDのAIグループのシニア・ディレクターであると特定されている。
その投稿で、ローレンツォは、Claude Codeが後退して複雑なエンジニアリング作業に信頼を置けないほどになったと書き、その主張を、6,852件のClaude Codeセッションファイル、17,871個の思考ブロック、234,760回のツール呼び出しに及ぶ広範な分析で裏づけた。
このクレームは、2月以降、Claudeの推定推論の深さが急激に低下し、それと同時にパフォーマンスの悪化を示す兆候も増えてきた、と主張している。具体的には、より早い段階での停止が増え、「最も単純な修正(simplest fix)」の振る舞いが増え、推論ループが増え、調査(リサーチ)を先に行う振る舞いから編集を先に行う振る舞いへの、測定可能な変化が見られるようになった。
その投稿のより大きなポイントは、高度なエンジニアリングのワークフローにおいて、長い推論は贅沢ではなく、そもそもモデルを使える状態にする要素の一部だ、ということだった。
そのGitHubスレッドは、その後より広いソーシャルメディアの議論へと飛び火した。Xユーザーには@Hesamationも含まれ、4月11日にローレンツォのGitHub投稿のスクリーンショットをXに掲載し、さらに強いバイラルな論点にまで押し上げた。
この拡散が重要だったのは、広い「Claudeが悪くなっている」という物語に、単なる体験談にもとづく苛立ち以上の具体性を与えたからだ。大手半導体企業のシニアAIリーダーによる、ログ、ツール利用のパターン、ユーザーの修正といった形で後退が見えるのだと主張する長くデータ量の多い投稿だったからで、単なる勘や感覚だけではなかった。
アンスロピックの公式な回答は、認識上の変化と実際のモデル劣化を切り分けることに焦点を当てた。同じGitHub issueへの1週間前の固定コメント付きのフォローアップで、Claude Codeリードのボリス・チェルニーは、ローレンツォへの分析の丁寧さと深さへの感謝を述べつつ、その主要な結論には異議を唱えた。
チェルニーは、クレームで引用された「redact-thinking-2026-02-12」ヘッダーはUIのみの変更で、インターフェース上から思考を隠し、レイテンシを下げるものだが、「思考そのもの」や「thinking budgets(思考予算)」、「内部での拡張推論の仕組み」には「影響しない」と述べた。
また、ユーザーが見ていた内容に影響した可能性が高い製品変更が他にも2つあるとし、それは、2月9日にOpus 4.6がデフォルトでアダプティブ推論へ移行したこと、そして3月3日にOpus 4.6のデフォルトのeffortが「medium effort(努力レベル85)」へ切り替わったことだと説明した。彼は、これらはインテリジェンス、レイテンシ、コストのバランスとして多くのユーザーにとって最良だとアンスロピックが見ていた、と述べている。
チェルニーはさらに、より長い拡張推論を望むユーザーはClaude Codeのターミナルセッションで、/effort highと入力することで、努力(effort)を手動で高く切り替えられるとも付け加えた。
このやり取りは、論争の核心を突いている。ローレンツォのような批判者は、要求の厳しいコーディングのワークフローにおけるClaudeの振る舞いが明らかに悪化していると主張し、その根拠としてログや利用パターンを挙げている。
一方でアンスロピックは、「何も変わっていない」とは言っていない。最大の最近の変更は、ユーザーに見えるものや、システムがデフォルトで使う努力の量に影響する製品とインターフェースの選択であって、基盤となるモデルの秘密のダウングレードではない、と言っている。この区別は技術的には重要かもしれないが、製品がより悪い結果を出していると感じるパワーユーザーにとっては、必ずしも納得のいくものではない。
また、TechRadarとPC Gamerによる外部報道が、ローレンツォの投稿と、一部のパワーユーザーの間で広がったより大きな同意の波を、さらに強く後押しした。
さらに別のX上の開発者Om Patelによるバイラルな投稿が4月7日にあり、そこでも同じ主張が、より直接的な言い回しで示された。「誰かが実際に」Claudeがどれだけ「頭が悪くなったか」を測定したのだとし、その結果を「67%の下落」と要約している。
その投稿は「AIの縮小(AI shrinkflation)」というラベルを広めるのに役立ち、論争を、熱心なClaude Codeユーザーだけでなく、X上のより広いAIの言説へと押し広げた。
これらの主張が響いたのは、多くの不満を持つユーザーが実際に目にしていると話す内容とかなり一致しているからだ。つまり、未完了のタスクが増える、手戻りが増える、トークン消費が増える、そして、複雑なコーディングの仕事を以前の今年前半ほど深く推論しようとしないのでは、という強い感覚がある、という点だ。
ベンチマークの投稿が、体験談にもとづく苛立ちを公的な論争へと変えた
最も大きなベンチマークに基づく主張は、BridgeMindによるものだった。BridgeMindはBridgeBenchのハルシネーションベンチマークを実行している。4月12日に、同アカウントは、Claude Opus 4.6の精度が以前の結果で示された83.3%から落ち、順位も2位から、68.3%の精度で10位となる新しい再テストの結果へと変わったと投稿し、それを「Claude Opus 4.6 is nerfed(Claude Opus 4.6が弱体化された)」の証拠だとした。
その投稿は広く拡散され、アンスロピックがモデルを劣化させたのではないかという、より一般の人々による主張のための主要な根拠のひとつになった。
他のユーザーたちも、実際のコーディング課題においてOpus 4.6がOpus 4.5よりもパフォーマンスを下回っていると示唆する、ベンチマーク関連またはテストベースの投稿を回していました。
さらに別の投稿では、特定のハーネスや製品環境においてモデルの挙動が変わったのだという根拠として、TerminalBench関連の結果が挙げられました。
その影響は累積的でした。ベンチマークのスクリーンショット、左右比較のテスト、そして体験に基づく苛立ちが、互いに強化し合いながら公の場で広がり始めたのです。
これは重要です。ベンチマークの主張は、より主観的な不満よりも広く拡散されやすいからです。「モデルの感じが悪くなった」という開発者の言葉は一つの話にすぎません。2位から10位へと順位が落ちたことを示すスクリーンショットや、精度が劇的に数パーセント揺れたことを示すようなものは、比較の背景がもっと複雑である可能性があっても、「難しい検証を経た確かな証拠」と見せかける力があります。
ベンチマーク主張への批判は、見た目ほど証拠が強くないと言う
BridgeBenchの主張に対する最も重要な反論は、Anthropicから出たものではありませんでした。X上で外部のソフトウェアおよびAI研究者であるPaul Calcraftが、ウイルス的に広まった比較が誤解を招いていると主張したことがきっかけです。理由として、先に出たOpus 4.6の結果は6つのタスクのみに基づいており、後の結果は30に基づいていたためだとしました。
彼の言葉では、それは「別のベンチマーク」でした。さらに、両者の実行で共通していた6つのタスクにおいて、Claudeのスコアは前回の87.6%から、後の実行では85.4%へと、変動はわずかだったと述べています。一方で大きな揺れに見えたものは、主に、繰り返しのない1つの作り話(ファブリケーション)結果から生じているように見えた、としました。彼はそれを、通常の統計的ノイズの範囲で十分に起こり得るものだと特徴づけました。
この外部からの反論が重要なのは、流通している中でも最もすっきりしていて拡散性の高い主張の一つを弱めるからです。ユーザーが「何かが変わった」と考えることが誤りだと証明するものではありません。しかし、少なくとも、いま物語を駆動しているベンチマークの証拠の一部は、過大に解釈されている可能性があること、適切に正規化されていない可能性があること、あるいは直接比較できない可能性があることを示唆しています。
BridgeBenchの投稿自体も、同様の趣旨でコミュニティノートを引きました。ノートでは、2つのベンチマーク実行がカバーした範囲は異なっており、ある方は6タスク、もう一方は30タスクで、共通タスク部分では変化はわずかだったと述べています。これでは後の結果が無意味になるわけではありませんが、「BridgeBenchがそれを証明した」という主張の最も強いバージョンを弱めます。
これが、今この論争の重要な特徴になっています。主張はすべて同じ強さではありません。中には、一次情報に基づくユーザー体験に根ざしているものがあります。中には、実際の製品変更を指しているものがあります。中には、リンゴとリンゴでない可能性のあるベンチマーク比較に依存しているものがあります。そして中には、Anthropicの外側にいるユーザーが直接検証できない、隠れたシステム挙動に関する推測に依存しているものもあります。
以前のキャパシティ制限が、裏側でさらに変化があったのではという疑念を与えた
現在の反発は、3月下旬に確認された実在のAnthropicによる方針変更の影にも当たっています。3月26日、Anthropicの技術スタッフThariq Shihiparが投稿し、
「増え続けるClaudeへの需要を管理するために」、同社はピーク時間帯におけるFree、Pro、Maxのサブスクライバーの5時間セッション上限の仕組みを調整する一方で、週次の上限は変更しないと述べました。
さらに、太平洋時間の平日5時から11時の間は、ユーザーが5時間セッション上限を以前よりも速く消化していくことになるとしました。フォローアップの投稿では、同社が影響の一部を相殺する効率化の成果を得たと述べつつも、概ね7%のユーザーが、特にProの層で、以前は到達しなかったはずのセッション上限に到達することになるだろうと説明しています。
2026年3月27日のメールで、AnthropicはVentureBeatに対し、TeamおよびEnterpriseの顧客はこれらの変更の影響を受けておらず、またこの切り替えはユーザーごとに動的に最適化されていたのではなく、同社が公に説明していた「ピーク時間帯」のウィンドウに適用されるものだと伝えました。さらにAnthropicは、キャパシティを拡張するために投資を継続しているとも述べています。
これらの発言はセッション上限に関するものであって、モデルのダウングレードについてではありません。しかし重要なのは背景で、ユーザーがいま公の場でつなげ続けている2つの事柄を裏付けることになります。第一に、Anthropicは需要の急増に対応していること。第二に、忙しい時期の利用をすでにやりくりする仕組みを変えていることです。これはAnthropicがモデルの品質を下げたことの証明にはなりません。ただし、「別の何かも変わったのかもしれない」とユーザーが信じる下地がなぜこれほど多いのかを説明する助けにはなります。
プロンプトキャッシュとTTL
別の、より新しいGitHubのイシューが、この論争をモデル品質を超えて、価格設定や割当(クォータ)の挙動へと広げています。イシュー#46829でユーザーのseanGSISGは、Claude Codeのプロンプトキャッシュのタイム・トゥ・リブ(TTL)が、3月上旬に1時間設定から5分設定へと変わったように見えると主張しました。その根拠として、2台のマシンにまたがるClaude Codeのセッションログから抽出した、ほぼ120,000件のAPI呼び出しの分析に基づいているとしています。
この不満は、この変更がキャッシュ作成コストの増加やクォータの消費(クォータバーン)に実質的な増分をもたらしたと論じています。特に、キャッシュされた文脈がすぐに期限切れになり、再構築が必要になるような長時間のコーディングセッションでは、その影響が大きいという主張です。投稿者は、このことが、一部のサブスクユーザーが以前は遭遇していなかった利用上限に当たり始めた理由を説明するのに役立つとも述べています。
このイシューが注目されるのは、Anthropicが「何かが変わったこと」をはっきり否定していないからです。スレッド内の返信でJarred Sumnerは、3月6日の変更は事実であり意図的なものだったが、それが後退(回帰)だという枠組みは退けた、と述べました。彼は、Claude Codeは要求タイプごとに異なるキャッシュ期間を使っており、「1時間キャッシュ」が常に安いわけではないとも説明しています。1時間分を書き込む場合は最初にかかるコストが大きく、そのキャッシュされた文脈を同じ内容で十分な回数だけ再利用できたときにのみ、コスト削減につながるためだというのです。
彼の説明では、この変更は静かなダウングレードではなく、進行中のキャッシュ最適化作業の一部でした。そしてイシューで説明されている、3月6日以前の挙動は「意図された安定状態ではなかった」としています。
その後、スレッドはAnthropicのChernyによる、より詳細な回答を引き込みました。Chernyは「1時間のキャッシュは『微妙(nuanced)』であり」、同社はサブスクライバーのキャッシュヒット率、トークン使用量、レイテンシを改善するためのヒューリスティックをテストしていると述べました。Chernyは、多くのクエリでは5分キャッシュを維持しており、再開されることがめったにないサブエージェントも含むと言っています。また、テレメトリをオフにすると実験ゲートも無効になり、その結果として場合によってはClaude Codeが5分のデフォルトにフォールバックすることがある、としました。
さらに、Anthropicは環境変数を公開して、ユーザーが1時間または5分のキャッシュ挙動を直接強制できるようにする予定だと付け加えました。これらの回答は、イシュー投稿者の「Anthropicが裏でClaude Code全体をより高くするようにこっそり変更した」という主張を裏づけるものではありません。しかし、ユーザーがクォータバーンの増加や製品挙動の変化について、より大きく不満を口にし始めたのと同じ時期に、Anthropicが舞台裏でキャッシュの挙動を積極的に実験していたことを裏づけるものになっています。
Anthropicは「秘密の劣化」ではなく「ユーザーに見える変更」が騒動の多くを説明すると言う
Anthropicに関係する従業員たちは、最も広範な非難に対して公に反論してきました。広く回覧されたX上のある返信で、Chernyは「AnthropicがClaude Codeをこっそり弱体化(nerf)させた」とする主張に対し、
「これは誤りです」
と返しました。
彼は、Claudeがあまりにも多くのトークンを消費しているというユーザーのフィードバックを受けてClaude Codeがデフォルトで“中程度の努力(medium effort)”に設定されたこと、そしてその変更は変更履歴(changelog)と、ユーザーがClaude Codeを開いたときに表示されるダイアログの両方で開示されていたことを述べました。
この返信が注目されるのは、有意義なプロダクト変更を認めつつ、より陰謀めいた解釈を退けているからです。Anthropicは「何も変わっていない」と言っているわけではありません。変わったのは開示された内容であり、モデルの品質を秘密裏に下げることを目的としたものではなく、トークン使用のバランスを取ることを目的としていた、と言っているのです。
公開ドキュメントも、努力(effort)デフォルトが動き出している事実を裏付けています。 Claude Codeの変更履歴では、4月7日に、AnthropicがAPIキーのユーザーだけでなくBedrock、Vertex、Foundry、Team、Enterpriseのユーザーについても、デフォルトの努力レベルを中(medium)から高(high)に変更したとされています。
これは、Anthropicがさまざまなセグメントにわたってこれらの設定を積極的に調整していることを示唆しており、仮に中核となるモデルの重みが変わっていなくても、ユーザーの認識に影響し得るのは十分に考えられます。
また、Shihiparは需要管理(demand-management)に関するより広範な非難も、直接否定しました。 Xでの返信(4月11日投稿)で、彼はAnthropicは需要によりよく応えるためにモデルを「劣化(degrade)」させていないと述べています。さらに、思考要約(thinking summaries)の変更が、あるユーザーがClaudeの「思考」を測定する方法に影響したこと、そして同社は現在オンラインで広がっている最も強い定性的主張を裏付ける証拠を見つけられていないとも語っています。
本当の問題は、モデルの品質というより「信頼」かもしれない
明らかなのは、Anthropicと、その中でも特に要求水準の高い一部のユーザーとの間に信頼のギャップが生まれたということです。
日中ずっとClaude Codeに依存している開発者にとって、見える思考出力のわずかな変化、努力デフォルト、トークン消費(token burn)、レイテンシのトレードオフ、利用上限などは、より弱いモデルのように感じられることがあります。
それは、根本原因が製品設定なのか、UIの変更なのか、推論ポリシーの微調整なのか、キャパシティの逼迫なのか、あるいは本当の品質劣化なのかに関係なく当てはまります。
つまり、この争いの双方が互い違いのことを話している可能性もあります。ユーザーは、自分たちが体験していることを語っています。より大きな摩擦、より多くの失敗、そして自信のなさです。Anthropicは製品上の言葉で返答しています。努力デフォルト、隠された思考要約、変更履歴の開示、そして需要による圧力が秘密裏のモデル劣化を引き起こしているという主張の否定です。
これらは必ずしも両立しない説明ではありません。同社が、批判者が主張するような意味で基盤となるモデルを「弱体化(nerfed)」していないと考えていたとしても、ユーザーの体感としてはより悪くなっていると感じられることはあり得ます。しかし、Anthropicの最大の競合であるOpenAIが最近方針を転換し、競合するエンタープライズ向けで“vibe-coding”に焦点を当てた製品Codexにより多くのリソースを投じていること、そしてツールの利用を後押しするために、よりミドルレンジの新しいChatGPTサブスクリプションを提供していることを踏まえると、これは少なくともAnthropicや顧客の維持にとってプラスになり得る種類の宣伝ではないでしょう。
同時に、公に出ている証拠は依然としてまちまちです。最もバズった主張のいくつかは、詳細なログを持ち、繰り返しの利用に基づいて強い見解を述べる開発者から出てきています。一方で、ベンチマークの証拠の一部は、外部の観察者によって方法論の観点から異議を唱えられています。そして、Anthropic自身による最近の上限や設定の変更によって、この議論は純粋な噂を背景に起きているのではなく、実際の調整を伴って行われていることも保証されています。



