Claude 4.8はがっかりだった。でもそれはClaudeだけの問題ではない

Dev.to / 2026/6/1

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

著者はClaudeのOpus 4.8を発売直後に試したが、リリースノートでの期待に反して複雑な研究・実行タスクで結果が何度も振るわなかった。
ultracodeを使った超長期ワークフローでは、指標が約0.1から0.15 tokens/秒へとわずかに改善した一方で、そもそも方向性が誤っている準備作業や自画自賛の冗長な文章に時間を浪費した。
著者は、ベースライン性能が極端に低い場合は「50%改善」のような相対的な見方が誤解を招き、絶対値こそが本質的なズレを示すと主張している。
研究の不調に加えて、続くエンジニアリング作業では、不要に見えるトークン消費を伴う不思議な数え上げなど、より基礎的な問題も露呈した。
結論として、Opus 4.8の問題は「Claudeだけのせい」ではなく、長時間エージェントが目的を誤ることや、ノイズの多い出力を作ってしまうことなど、システム側の構造的な課題が背景にあるというのが著者の見立てだ。

この記事の続きは原文サイトでお読みいただけます。

AI Business

日経XTECH

日経XTECH

Reddit r/MachineLearning

Dev.to