Claude Opus 4.7は“最強で最恐”？　圧倒的な性能なのに使いたくないわけ

ITmedia AI+ / 2026/4/23

💬 オピニオンIndustry & Market MovesModels & Research

原文を読む →

共有:

要点

Anthropicは高いサイバー能力を持つClaude Mythos Previewを限定公開しており、その約1週間後により広く使える最上位モデルとしてClaude Opus 4.7を投入した。
Claude Opus 4.7は、コーディング、長時間タスク、文書/画像理解など実務に直結する領域でベンチマーク上も最上位クラスの性能を示している。
途中で作業が崩れにくい継続性や、複数の資料・画面情報をまとめて扱う能力など、「会話の上手さ」以外の強みが強調されている。
記事は、公式発表で示されたSWE-bench/Terminal-Bench/Humanity's Last Exam/BrowseComp/MCP-Atlas/OSWorld-Verified/Finance Agent/CyberGymなど幅広い指標での比較を紹介している。

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

　Anthropicは少し前、極めて高いサイバー能力を持つ新モデルClaude Mythos Previewを限定的に公開した。重要ソフトウェアの防御に役立つ一方で、攻撃側に回った場合のリスクも大きいため、まずは“Project Glasswing”のような限られた枠組みの中で使う、というのが同社の判断だった。そこから約1週間後の2026年4月16日（米国時間）、それより性能は抑えつつも、広く使える最上位モデルとして出てきたのがClaude Opus 4.7である。

　このOpus 4.7は、性能を評価するベンチマークだけを見ると、現在の一般公開モデルの中でも最強クラスに入る。コーディング、長時間タスク、文書理解、画像理解まで、実務に効く部分を広く押し上げてきたからだ。単に会話がうまいだけではなく、長い作業を途中で崩さずに進めたり、複数の資料や画面情報をまとめて扱ったりする力まで含めて、一段上に来た印象がある。

主要ベンチマークにおけるClaude Opus 4.7と他モデルの比較（公式発表ページから引用）
各行には、SWE-bench Pro／Verified（コード修正）、Terminal-Bench 2.0（ターミナル操作を含むコーディング）、Humanity's Last Exam（多分野推論）、BrowseComp（検索）、MCP-Atlas（大規模なツール利用）、OSWorld-Verified（コンピュータ操作）、Finance Agent v1.1（金融分析）、CyberGym（サイバーセキュリティ）、GPQA Diamond（大学院レベル推論）、CharXiv Reasoning（視覚推論）、MMMLU（多言語Q&A）といった評価指標が並んでいる。

　この表でまず押さえたいのは、Opus 4.7が前世代のOpus 4.6を多くの項目で上回り、一般公開モデルとして最上位級の水準にあるという点である。例えば、高度なコード修正能力を測る「SWE-bench Pro」では64.3％を記録し、GPT-5.4の57.7％を上回っている。しかも、単に一部の評価だけが突出しているのではなく、コーディングや検索、コンピュータ操作、金融分析、推論といった複数の領域で底上げが起きている。

　その中でも目を引くのが、長時間タスクでの粘り強さである。Anthropicが公表ページ内の別の図で示した「Vending-Bench 2」では、Opus 4.6の8018ドルに対し、Opus 4.7は10937ドルの残高を維持した。これは、複数の手順が続く作業でも途中で方針を崩しにくく、目的を見失わずに進める力が強まったことを示す結果として読むことができる。

　もっとも、今回のOpus 4.7が多くの人、特にソフトウェアエンジニアに強い衝撃を与えているのは、この「圧倒的な性能」だけではない。この1週間ほど、XなどのSNSに寄せられたユーザーの反応を見ると、自律性の高さや完走力を評価する声がある一方で、実務投入をためらわせるような不安や、セキュリティ面での怖さを指摘する声も目立つ。強いのは確かだが、その強さがそのまま安心感につながっていないのである。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手掛かりに技術の“今”をもう少し深く眺めてみたい。さらに後半では、Opus 4.7で何が変わったのかも整理する。

　Deep Insider編集長の一色です。こんにちは。

　Opus 4.7はまだ本格的には試せていないのですが、登場直後からXでユーザー報告を追っていたところ、批判の多さに驚きました。これほど批判が集中するのは、Claude系モデルでは今までなかったことです。しかも事例の内容を知ると恐怖を覚えるほどで、少し手を出しづらくなってしまいました……。

　どんなユーザー報告が来ていたかというと、例えば以下のような事例です。

指示なき自律ハック： デバッグ中に指示もないのに自らDB（データベース）接続キーを盗み出し、SQLでの機密操作を強行しようとした
指示無視による高額浪費： 特定リンクのみ使うよう指示したのに無視して勝手に高額プロセスを起動し、200ドル相当のクレジットを数時間で溶かした

　ユーザーコミュニティーではよく、GPTモデル／Codexは“指示に忠実なガリ勉タイプ”で、Claudeモデル／Claude Codeは“人間らしく雰囲気で意図をくんでくれるバイブコーディングタイプ”と表現されています。ちなみに私は前者が好みですが、多くの人は後者が好みのようです。ところがOpus 4.7は、“指示に忠実なガリ勉タイプ”に近づいたという印象を持つ人が多いようです。

　ガリ勉とバイブコーディングという2つの性格が同居した結果、「指示されたタスクや目標を達成するためなら、手段を選ばない」という“かなり危うい性格”を発揮し始めました。その結果、事例に挙げたようなことが起きているのではないかと私は見ています。目的のためなら安全チェックさえ自ら回避しようとするのは、さすがに問題だと思います。事例のユーザーも、「そんなこと言ってないよ！」と慌てて実行を止めたそうです。

　しかもOpus 4.7は、トークン消費が前モデル比で最大1.35倍に増える可能性があります（トークナイザの変更による公式仕様）。さらに最近は、「Anthropicがユーザーの使用量（使えるトークンの量）を静かに絞っているのではないか」という疑惑を持つ人までいます。GitHub Copilotなどでの利用コストも前モデル比で約2倍以上になっています。「コスパが明らかに悪化した」「4.6に戻した」という声も少なくありません。

　まさに“最強で最恐”なモデル、Claude Opus 4.7。性能の高さは間違いない一方で、現時点では不安の方が先に立ちます。私は、もう少し様子を見たいと思っています。

　Claude Opus 4.7は、Anthropic公式APIの他、GitHub Copilot、Cursor、Amazon Bedrock、OpenRouterなどで利用できる。以下、公式ドキュメントを基に、今回のアップデートで特に注目したい変更点を整理していこう。

その他の更新内容

新機能と機能改善

effort（努力度）レベルに「xhigh」を追加： effortパラメーターに、highとmaxの間に位置するxhighを追加した。Claude Codeでは、Opus 4.7のデフォルトeffortレベルがxhighに設定されている
タスク予算（Task Budget）： エージェント型のループ全体で使うトークン量の目安をモデルに与えるタスクバジェット（作業全体の予算、β版）を導入した。max_tokensのような厳密な上限ではなく、モデルが作業の優先順位付けやペース配分を判断するための目安として機能する
高解像度画像サポート： 最大画像解像度が2576px／3.75MPに拡張された。従来の1568px／1.15MPから大きく増え、スクリーンショット理解や図表解析、画面上の座標特定（モデルの出力座標が実ピクセルと1:1対応に）の精度向上が見込まれる
知識労働タスクの改善： .docx（Microsoft Word）ファイルの作成・校正や、.pptx（Microsoft PowerPoint）ファイルの編集、さらにPIL（Python Imaging Library）などの画像処理ライブラリを使った図表・グラフ解析が改善された。特に、生成した成果物をモデル自身が見直して自己検証するような作業で強化が目立つ
ファイルシステムベースのメモリ： メモファイルやスクラッチパッドのようなファイルシステム上の記憶を書き込み、後の作業で活用する能力が強化された。複数セッションにまたがるエージェント運用で有効とされる
モデル仕様： APIモデルIDはclaude-opus-4-7。100万（1M）トークンのコンテキストウィンドウと12万8千（128K）の最大出力トークン、適応的思考（adaptive thinking：タスクの難易度に応じて思考の深さを自動調整する仕組み）に対応する

APIの破壊的変更（移行時の注意点）

固定予算の拡張思考を廃止： thinking: {"type": "enabled", "budget_tokens": N}はOpus 4.7では非対応となり、400エラーを返す。代わりにthinking: {"type": "adaptive"}とeffortパラメーターを組み合わせて使う
適応的思考はデフォルトOFF： Opus 4.7では、thinkingフィールドを指定しなければ思考なしで実行される。有効にする場合はthinking: {"type": "adaptive"}を明示的に設定する必要がある
サンプリングパラメーターの廃止： temperature、top_p、top_kをデフォルト以外に設定すると400エラーになる。出力の多様性や挙動の調整はパラメーターではなく、プロンプト側で行う方針に変更された
思考表示がデフォルトで省略に変更： Opus 4.7ではthinking.displayの既定値が"omitted"に変更された（Opus 4.6までは"summarized"が既定）。思考ブロック自体はレスポンスに含まれるが、thinkingフィールドの中身は空になる。思考内容を確認したい場合は"display": "summarized"を明示的に設定する必要がある
新トークナイザの影響： Opus 4.7は新しいトークナイザを採用しており、同じテキストでも消費トークンが最大約35％増える可能性がある。料金表の単価はOpus 4.6と同じでも、実質コストは上がりやすい点に注意が必要