AMDのAIディレクターが「アップデート以降、Claude Codeがバカになり手抜きになった」と非難
「複雑なエンジニアリング作業を任せられない」――GitHubチケットによると
Claude Codeの性能が劣化していき、複雑な作業をもう任せられないと感じるまでになっているのに気づいたなら、それはあなただけではありません。
GitHubのissueが金曜日に、ユーザーのstellaraccidentによって提出されました。このユーザーのGithubプロフィールと、関連するLinkedIn投稿から、投稿者は半導体メーカーAMDでAIグループのディレクターを務めるStella Laurenzoだと特定されています。彼女は、2月のある時期からずっとClaude Codeが本当に“手抜き”になってきた(仕事をまともにやらなくなってきた)と不満を述べています。
「Claudeは、複雑なエンジニアリング作業を遂行するのに信頼できない」――Laurenzoはそう書き、チームがClaude Codeを使っている「非常に一貫した、高い複雑性のある作業環境」から得られた何か月ものログを参照したことで、その結論に至ったと説明しました。「私のチームのすべてのシニアエンジニアが、同様の経験/逸話を報告しています」とLaurenzoは付け加えました。
issueスレッドのコメントを見た限り、同じように感じている人は他にもたくさんいて、Redditの投稿者たちも同様の考えを表明しています。
この結論に至るため、Laurenzoと彼女のチームは、ツール呼び出し234,760回と「thinking(思考)」ブロック17,871個を含む6,852件のClaude Codeセッションを分析しました。彼らのデータによると、所有権のごまかしを見抜くために使われるストップフック違反(stop-hook violations)、思考プロセスの時期尚早な停止、そして「怠惰」を示す許可取り行動の回数はいずれも急増し、3月8日以前はゼロだったものが、先月末までの平均で1日あたり10回にまで跳ね上がりました。
変更を加える前にClaudeがコード片を読み通す回数も大幅に減り、平均6.6回から3月末までにはわずか2回になりました。一方で同じ期間に、Claudeは修正(編集)をちょっと加えるのではなく、はるかに高い頻度でファイル全体を書き換えるようになりました。
Laurenzoによれば、これらすべてが、Claude Codeが深く考えていないことを示しており、Claude Codeバージョン2.1.69での3月上旬の「思考内容の秘匿(redaction)」コンテンツの導入と符合しています。思考秘匿は、Claude Code APIの応答から思考内容をデフォルトで削除するヘッダーとして機能します。つまり、ユーザーはClaude Codeが要求を熟考している間に実際に何をしているのか、まったく手がかりを得られないのです。
Lorenzoによれば、この証拠は、導入以降の全般的な「思考量の減少」を示しています。
「思考が浅いと、モデルは利用可能な中で最も安い行動にデフォルト設定されます。すなわち、読まずに編集する、終わりまで到達せずに停止する、失敗に対する責任を回避する、正しい解決策ではなく最も単純な修正を取る、ということです」とGitHubのイシューは説明しています。「これらは、まさに観測された症状そのものです。」
気になっているかもしれませんが、これは、ユーザーが2月にボットのバージョン2.1.20が問題を起こしたと問題視していた件とは別の問題のように見えます。当時は思考プロセスの一部として読んでいた内容の説明をtruncateしてしまったのです。
そのケースでは、多くのClaude Codeユーザーが「AIがバカにされている(劣化させられている)」証拠だと非難するまでになりました。ですがユーザーに残されたのは、「何件のファイルを読んだか」を示す簡単な1行だけで、それ以上の具体性はほとんどありませんでした。今回の最新の展開について、同じ開発者たちがあまり喜ばないだろうことは想像に難くありません。
また、Anthropicは理由の説明がないトークン使用量の急増についても批判を浴びており、その結果一部のユーザーが上限を超えてしまい、製品を使えなくなっています。さらに最近の暴露で、Claude Codeのソースコード全文が明らかになったことを加えると、AI企業としてはあまり良い状況とは言えません。
Laurenzoとしては、Anthropicが「思考トークンを減らしているのか/上限で抑えているのか」、そしてClaude Codeがゴミのような出力を吐いている原因になっているのかを、少なくとも透明性をもって示してほしいと考えています。少なくとも、ユーザーが「自分の要求が、必要な推論の深さを得られているかどうかを監視できるように」、リクエストごとに使われている思考トークン数をClaudeが公開してほしいのです。
またLaurenzoは、複雑なワークフローを回しているエンジニア向けに、Anthropicの提供メニューに最大の思考ティア(思考量の上限)を追加することも求めました。「現在のサブスクリプションのモデルでは、1回の応答に200の思考トークンが必要なユーザーと、20,000が必要なユーザーを区別していません」とAMDのAI責任者は説明しました。「複雑なエンジニアリングのワークフローを実行するユーザーは、保証された深い思考のために、より大幅に多く支払うことになります。」
- Claude Codeのソース漏えいで、Anthropicがあなたやあなたのシステムについてどれだけの情報を吸い上げられるかが明らかに
- AIでコードを書いても、それであなたのコードがより安全になるわけではない
- AnthropicはこのClaude Codeソース漏えいのおかげで、いろいろな意味で手に負えない状況になっている
- Claude Codeののぞき見AIが、立ち入り禁止の秘密ファイルを読み取る
「私たちは別のプロバイダーに切り替えました。そこはより優れた品質の作業をしてくれています。でもClaudeは私たちにとって良い存在でした。Anthropicが製品を直せるよう、こうした形で置いておきます」と、Laurenzoは説明しました。なお、彼女はNDAs(秘密保持契約)に触れたコメントとして、新しいツールが何なのかの詳細には踏み込みませんでした。とはいえLaurenzoは、AIによるコーディングのゲームはまだ始まったばかりであり、Anthropicがその振る舞いを続けるなら、首位の座を明け渡すことになりかねないと警告していたのだそうです。
「付け加えると、6か月前までは、Claudeは推論の品質と実行の面で一人だけ飛び抜けていました」と、イシューのスレッドでの返信でLaurenzoは述べています。「ただし他社のものは注意深く監視し、慎重に評価する必要があります。Anthropicは、Opusが以前占めていた能力ティアにおいて、決して単独ではありません。」
この件について、当初AnthropicもLaurenzoも、本記事の取材に対する質問には回答しませんでした。 ®




