より賢くするためにClaudeを「頭が悪くなる」ように調整したことをAnthropicが認める
システム変更とバグが重なり、全般的な衰えの印象を生み出した
過去1か月の間に、AIサービスがより低品質な回答を出していると訴えたClaudeユーザーは、気のせいだと思っていたわけではありません。
Anthropicは木曜日公開した調査結果で、3月と4月に起きた3つの別々の変更が、Claude Code、Claude Agent SDK、そしてClaude Coworkを使う顧客に対して状況を悪化させたことを明らかにしました。
同社によれば、ClaudeのAPIは影響を受けていません。
Claudeユーザーは3月と4月におけるClaudeの出力品質について強く不満を述べており、サービスの利用可能性の問題が事態をさらに悪化させました。
Anthropicは、自社のモデルを意図的に劣化させたわけではないと主張しています。むしろ、いくつかの調整がうまくいかず、その失敗が、忍び寄るAIの不手際という認識を生み出したのだといいます。
まず3月4日、AnthropicはClaude Codeのデフォルトの推論effort level(努力度)を高から中に変更しました。effort levelは、モデルが特定の推論タスクにどれだけの努力を費やすかを制御します。Anthropicは、今回行った変更により、より長い熟考の後に発生していた遅延を減らせることを期待していました。
「これは誤ったトレードオフでした」と同社は述べました。「ユーザーから、より高い知能をデフォルトにして、単純なタスクでは努力度を低くする設定を自分で選びたいと聞いたため、4月7日にこの変更を元に戻しました。」
返却形式: {"translated": "翻訳されたHTML"}おそらく、Opus 4.6 と Sonnet 4.6 でデフォルトの努力(エフォート)レベルを下げれば、推論の負担も軽くなっていたはずです。モデルは「考える」時間が減り、より少ないトークンを消費し、限られた能力をより思慮深く使うことになります。
最新の Claude Code ビルド、v2.1.118 は、Sonnet 4.6 でデフォルトを「xhigh」にしています。
Anthropic がもう一度しくじった原因は、3月26日に導入されたバグでした。キャッシュ最適化の変更が、プロンプトとレスポンスの各ターンごとにキャッシュされたセッションデータを消してしまう結果になったのです。
Claude は入力トークンを1時間キャッシュします。これにより、ユーザーは連続する API 呼び出しがより速く、かつ安くなる恩恵を受けます。同社のエンジニアは、ユーザーが1時間無操作だった場合は出力トークン(思考セッション)を消したいと考えました。というのも、それだけの時間が経つとキャッシュは使用されないからです。
- GitHub が CLI ユーザー全員を、望むかどうかにかかわらずテレメトリ収集に同意させてしまう
- Microsoft があなたの Word ドキュメントに、頼んでいない AI の共同著者を付けてしまう
- 巧妙な求人詐欺の標的になった開発者:「警戒を解いて、クソみたいなコードを実行してしまった」
- AI がいまサーバー用の電力と管理チップを食い尽くしている
今回の変更に対する Anthropic の動機は、関連しなくなった古い思考トレースを破棄することで、セッション再開のコストを下げることでした。しかしその代わりに、エンジニア――Claude?――が、ターンごとに思考セッションを消してしまうバグを導入しました。その結果、Claude は「物忘れがちで、繰り返しが多い」状態になりました。これは、Sonnet 4.6 と Opus 4.6 向けに、4月10日に修正されました。
次に3つ目として、4月16日、Anthropic は他の対策の一環として、Claude モデルが冗長になりにくくするためにシステムプロンプトを見直しました。追加された文は無害に聞こえます。
「長さの制限:ツール呼び出し間のテキストは ≤25 words に保つ。最終レスポンスは、タスクがより詳しい内容を要求しない限り ≤100 words に保つ。」
数週間にわたる社内テストの後、モデル品質の評価では、その変更は安全だと示されました。しかし、Opus 4.7 のリリースとあわせて修正済みのシステムプロンプトを出荷した後に行われたアブレーションテスト――システムプロンプトの指示を取り除き、その不在による効果を測るもの――によって、Opus 4.6 と 4.7 の両方で3%のパフォーマンス低下が明らかになりました。該当するシステムプロンプトの調整は、4月20日に元に戻されました。
Anthropic は、将来の Claude Code の公開ビルドに向けて、より多くの社内テストを行うこと、コードレビュー ツールの改善、システムプロンプト変更のより良い評価、そしてソーシャルメディアサイト X 上での新しい @ClaudeDevs アカウントの開設を約束しています。「製品の意思決定と、その背後にある考え方を、深く説明するための余地を得るためです。」
これは、成長責任者の Amol Avasare が、X に投稿して 事前告知のない A/B テスト を説明し、さらに 「人々が X や Reddit といったソーシャルメディアのチャネル経由で問題を聞かなくても済むように、もっと直接的に伝えるように会社として取り組むつもりだ」としたのが、ほんの1日後のことでした。
お客さまが「心地よいほど無感覚(うつろな平気さ)」という状態を思い出せるように、AI は全員のアカウント利用レベルをリセットしました。
「これは、ユーザーが Claude Code に期待すべき体験ではありません」と同社は述べています。®
より狭いトピック
- AdBlock Plus
- AIOps
- API
- アプリ
- アプリケーション・デリバリー・コントローラー
- Audacity
- Claude
- Confluence
- データベース
- DeepSeek
- FOSDEM
- FOSS
- Gemini
- Git
- Google AI
- GPT-3
- GPT-4
- Grab
- グラフィックス交換フォーマット
- IDE
- 画像圧縮
- Jenkins
- レガシー技術
- LibreOffice
- マシンラーニング
- 地図
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイル端末管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- リトリーバル拡張生成
- レトロ・コンピューティング
- 検索エンジン
- ソフトウェア・ビル・オブ・マテリアル
- ソフトウェアのバグ
- ソフトウェアライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディター
- TOPS
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- WebAssembly
- Web ブラウザー
- WordPress
さらに詳しく
より狭い話題
- AdBlock Plus
- AIOps
- API
- アプリ
- アプリケーション配信コントローラー
- Audacity
- Claude
- Confluence
- データベース
- DeepSeek
- FOSDEM
- FOSS
- Gemini
- Git
- Google AI
- GPT-3
- GPT-4
- Grab
- グラフィックス交換形式
- IDE
- 画像圧縮
- Jenkins
- レガシーテクノロジー
- LibreOffice
- 機械学習
- 地図
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイルデバイス管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- 検索拡張生成
- レトロコンピューティング
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアの不具合
- ソフトウェアライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディター
- TOPS
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- WebAssembly
- ウェブブラウザ
- WordPress




