Claudeは複雑なエンジニアリング作業を実行するのに信用できない

Reddit r/artificial / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market Moves

要点

  • AMDのAIディレクターが6,852件のClaude Codeセッションを分析し、推論(「思考の深さ」が67%低下)が減ったこと、コード読解の挙動が弱いこと、ファイルを読んだ後でないのに編集アクションを行うことがあるため、Claudeは複雑なエンジニアリング作業では「信頼できない」と結論づけた。
  • 報告された違反(例:ストップフック違反)が、ゼロから1日あたり約10件へ増加した。また、Anthropicが「高(high)」から「中(medium)」へデフォルトの努力度を変更したとされ、さらに「アダプティブ・シンキング」を追加したことで、一部のターンで推論トークンがゼロになる可能性があるという。
  • Anthropicは、共有されたトランスクリプトを通じて、推論トークンがゼロとして割り当てられたターンが存在することを確認したとされ、そうしたターンは幻覚(ハルシネーション)とも結びついていた。
  • AMDのチームは、サイレントなアップデートの後ですでに別のプロバイダーへ切り替えたと述べ、AIツールの変更が十分な通知なしに起きる場合の、ベンダーロックインに伴う運用上のリスクが強調されている。
  • 著者は、より広い教訓として、モデル能力が急速に変化するため、マルチモデルを維持し、複数ベンダーに対応したインターフェースを使い、代替案を定期的にテストすることで、単一プロバイダーへの依存を避けるべきだと主張している。

AMDのAIディレクターが、Claude Codeの6,852件のセッション、234,760件のツール呼び出し、17,871個の「考える」ブロックを解析した。

彼女の結論はこうだ。「Claudeは、複雑なエンジニアリング作業を遂行するために信用できない。」

思考の深さは67%低下。コードは編集前に読むようになっていたはずが、6.6から2.0へと落ちた。モデルは、読んですらいないファイルを編集し始めた。

ストップフック違反は、ゼロから1日10件へ。

Anthropicは、デフォルトの努力レベルを「high」から「medium」へ静かに変更し、さらに「adaptive thinking」を導入して、モデルがどれだけ推論するかを決められるようにしたことを認めた。

発表はなし。警告もなし。

ユーザーが議事録(トランスクリプト)を共有すると、Anthropic自身のエンジニアが、モデルがいくつかのターンで思考トークンをZERO割り当てていると確認した。

推論がゼロだったターン? それは幻覚を起こしていたものだ。

AMDのチームはすでに別の提供元に切り替えている。

ただ、ここからが多くの人が見落としている点だ。

これは単なるClaudeの話ではない。

AMDは1つのツールで50件以上の同時セッションを動かしていた。

彼らのAIコンパイラのワークフロー全体はClaude Codeを前提に構築されていた。静かなアップデートがすべてを壊した。

それがベンダーロックインだ。これからも起き続ける。

→ すべてのAI企業は、あなたのワークフローではなく自社の利益率を最適化する

→ 今日のベストモデルは、明日の2番手

→ あなたのワークフローが提供元の切り替えに耐えられないなら、それはワークフローではない。依存関係だ

解決策はシンプルだ:マルチモデルを維持する。

→ Claude、GPT、Geminiを1つのインターフェースで切り替えられるPerplexityのようなツールを使う

→ 1つのモデルに紐づくトリックではなく、モデルをまたいで通用するプロンプトエンジニアリングを学ぶ

→ ランキングの変動が速いので、月ごとに代替案をテストする

Laurenzo自身がこう言っていた:「6か月前は、Claudeが孤立していた。Anthropicは、かつてOpusが占めていた能力ティアの水準からほど遠いとはいえ、決して一人ではない。」

submitted by /u/Infinite-pheonix
[link] [comments]