Anthropic、より賢くしようとしてClaudeを“賢くない方向”に調整していたことを認める

The Register / 2026/4/24

💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Anthropicは、Claudeの性能を(“賢くない方向に”)落としてしまった一方で、システムをより賢くしようとしたことを認めた。
  • 同社によれば、複数のシステム変更とバグが時期的に重なり、その結果としてClaudeの能力が全般的に低下したように見える事態が生じたという。
  • 反復的なモデル/システム更新には、改善が回帰(性能劣化)によって相殺されるリスクがあることが浮き彫りになった。
  • 本記事はこの件を、ユーザーが観測した挙動に対する説明として位置づけており、単一の不具合によるものとしては扱っていない。
  • 全体として記事は、Anthropicが期待される挙動の回復に取り組む中で、AIアシスタントの挙動を安定させるためのデバッグと段階展開の重要性を伝えている。

より賢くするためにClaudeを「頭が悪くなる」ように調整したことをAnthropicが認める

システム変更とバグが重なり、全般的な衰えの印象を生み出した

Thu 23 Apr 2026 // 23:26 UTC

過去1か月の間に、AIサービスがより低品質な回答を出していると訴えたClaudeユーザーは、気のせいだと思っていたわけではありません。

Anthropicは木曜日公開した調査結果で、3月と4月に起きた3つの別々の変更が、Claude Code、Claude Agent SDK、そしてClaude Coworkを使う顧客に対して状況を悪化させたことを明らかにしました。

同社によれば、ClaudeのAPIは影響を受けていません。

Claudeユーザーは3月と4月におけるClaudeの出力品質について強く不満を述べており、サービスの利用可能性の問題が事態をさらに悪化させました。

Anthropicは、自社のモデルを意図的に劣化させたわけではないと主張しています。むしろ、いくつかの調整がうまくいかず、その失敗が、忍び寄るAIの不手際という認識を生み出したのだといいます。

まず3月4日、AnthropicはClaude Codeのデフォルトの推論effort level(努力度)を高から中に変更しました。effort levelは、モデルが特定の推論タスクにどれだけの努力を費やすかを制御します。Anthropicは、今回行った変更により、より長い熟考の後に発生していた遅延を減らせることを期待していました。

「これは誤ったトレードオフでした」と同社は述べました。「ユーザーから、より高い知能をデフォルトにして、単純なタスクでは努力度を低くする設定を自分で選びたいと聞いたため、4月7日にこの変更を元に戻しました。」

返却形式: {"translated": "翻訳されたHTML"}

おそらく、Opus 4.6 と Sonnet 4.6 でデフォルトの努力(エフォート)レベルを下げれば、推論の負担も軽くなっていたはずです。モデルは「考える」時間が減り、より少ないトークンを消費し、限られた能力をより思慮深く使うことになります。

最新の Claude Code ビルド、v2.1.118 は、Sonnet 4.6 でデフォルトを「xhigh」にしています。

Anthropic がもう一度しくじった原因は、3月26日に導入されたバグでした。キャッシュ最適化の変更が、プロンプトとレスポンスの各ターンごとにキャッシュされたセッションデータを消してしまう結果になったのです。

Claude は入力トークンを1時間キャッシュします。これにより、ユーザーは連続する API 呼び出しがより速く、かつ安くなる恩恵を受けます。同社のエンジニアは、ユーザーが1時間無操作だった場合は出力トークン(思考セッション)を消したいと考えました。というのも、それだけの時間が経つとキャッシュは使用されないからです。

今回の変更に対する Anthropic の動機は、関連しなくなった古い思考トレースを破棄することで、セッション再開のコストを下げることでした。しかしその代わりに、エンジニア――Claude?――が、ターンごとに思考セッションを消してしまうバグを導入しました。その結果、Claude は「物忘れがちで、繰り返しが多い」状態になりました。これは、Sonnet 4.6 と Opus 4.6 向けに、4月10日に修正されました。

次に3つ目として、4月16日、Anthropic は他の対策の一環として、Claude モデルが冗長になりにくくするためにシステムプロンプトを見直しました。追加された文は無害に聞こえます。

「長さの制限:ツール呼び出し間のテキストは ≤25 words に保つ。最終レスポンスは、タスクがより詳しい内容を要求しない限り ≤100 words に保つ。」

数週間にわたる社内テストの後、モデル品質の評価では、その変更は安全だと示されました。しかし、Opus 4.7 のリリースとあわせて修正済みのシステムプロンプトを出荷した後に行われたアブレーションテスト――システムプロンプトの指示を取り除き、その不在による効果を測るもの――によって、Opus 4.6 と 4.7 の両方で3%のパフォーマンス低下が明らかになりました。該当するシステムプロンプトの調整は、4月20日に元に戻されました。

Anthropic は、将来の Claude Code の公開ビルドに向けて、より多くの社内テストを行うこと、コードレビュー ツールの改善、システムプロンプト変更のより良い評価、そしてソーシャルメディアサイト X 上での新しい @ClaudeDevs アカウントの開設を約束しています。「製品の意思決定と、その背後にある考え方を、深く説明するための余地を得るためです。」

これは、成長責任者の Amol Avasare が、X に投稿して 事前告知のない A/B テスト を説明し、さらに 人々が X や Reddit といったソーシャルメディアのチャネル経由で問題を聞かなくても済むように、もっと直接的に伝えるように会社として取り組むつもりだ」としたのが、ほんの1日後のことでした。

お客さまが「心地よいほど無感覚(うつろな平気さ)」という状態を思い出せるように、AI は全員のアカウント利用レベルをリセットしました。

「これは、ユーザーが Claude Code に期待すべき体験ではありません」と同社は述べています。®

これらに近い内容
×

より狭いトピック

さらに詳しく

これに近い内容
×

より狭い話題

情報提供してください

ニュースをお送りください