AI Navigate

お知らせ 2026年2月5日 Claude Opus 4.6 のご紹介

Anthropic News / 2026/3/19

📰 ニュース

要点

  • Claude Opus 4.6 は、エージェント型コーディング、コンピュータの利用、ツールの利用、検索、金融の各分野におけるアップグレードとして発表され、大幅に業界をリードするモデルとして説明されています。
お知らせ

Claude Opus 4.6 の紹介

2026年2月5日
動画のサムネイル

私たちは、最も高度なモデルをアップグレードしています。

新しい Claude Opus 4.6 は、前任モデルのコーディングスキルを改善します。より慎重に計画し、エージェント的タスクを長く持続させ、より大規模なコードベースでより信頼性高く動作し、独自のミスを検出するためのコードレビューとデバッグスキルを向上させています。そして、Opusクラスのモデルとして初めて、Opus 4.6 はベータ版で1Mトークンのコンテキストウィンドウを備えています1

Opus 4.6 は、日常の業務タスクの範囲にも向上した能力を適用できます。財務分析の実行、リサーチ、文書、表計算、プレゼンテーションの作成と利用など。Cowork 内で、Claude が自律的にマルチタスクをこなせるところで、Opus 4.6 はこれらすべてのスキルをあなたの代わりに活用できます。

モデルの性能は、いくつかの評価で最先端です。例えば、エージェント型コーディング評価 Terminal-Bench 2.0 で最高スコアを達成し、複雑な多分野推論テストである Humanity’s Last Exam において他のすべてのフロンティアモデルをリードします。財務、法務、その他の領域での経済的価値のある知識作業タスクのパフォーマンスを評価する GDPval-AA では、Opus 4.6 は業界の次点モデル(OpenAI の GPT-5.2)を約144 Eloポイント上回り、3 自身の前任(Claude Opus 4.5)を190ポイント上回っています。Opus 4.6 はまた、オンラインで難しい情報を見つける能力を測る BrowseComp でも他のモデルより優れており、業界の中で最上位のモデルとされています。

私たちの広範な システムカード に示されているように、Opus 4.6 は業界の他のフロンティアモデルと同等か、それ以上の全体的な安全性プロファイルを示しており、安全性評価全体での挙動のズレの低さを特徴とします。

知識作業エージェント型検索コーディング推論
\"Opus
Opus 4.6 は、複数の専門分野における実務タスクで最先端です。
\"Opus
Opus 4.6 は、深層の多段階のエージェント型検索で業界最高スコアを獲得します。
\"Opus
Opus 4.6 は、深層・多段階のエージェント型検索で業界最高スコアを獲得します。
Opus 4.6 は、専門家レベルの推論の最前線を広げます。

Claude Code では、Claude Code を使って、エージェント・チーム を組み立て、タスクを共同で取り組むことができます。API では、Claude は 圧縮 を使って自身のコンテキストを要約し、長時間実行するタスクを制限にぶつからないように実行します。さらに、適応的思考 を導入します。ここでは、モデルが拡張思考の使い方について文脈的な手掛かりを読み取り、拡張思考を使う量を判断できるようにします。そして、新しい 努力 コントロールを追加し、知性、速度、コストを開発者がよりコントロールできるようにします。

Claude Code では、Claude in Excel に大幅なアップグレードを施し、研究プレビューとして Claude in PowerPoint をリリースします。これにより、Claude は日常の作業においてはるかに高い能力を持つようになります。

Video thumbnail

Claude Opus 4.6 は、Claude.ai、私たちの API、そしてすべての主要クラウドプラットフォームで本日ご利用いただけます。開発者の方は、claude-opus-4-6 を Claude API 経由でご利用ください。価格は百万トークンあたり $5 / $25 のままです。詳しくは 料金ページをご覧ください。

以下に、モデル、私たちの新製品のアップデート、私たちの評価、そして包括的な安全性テストを詳しく解説します。

第一印象

私たちは Claude を Claude で作っています。私たちのエンジニアは毎日 Claude Code でコードを書き、すべての新しいモデルは最初に私たち自身の作業でテストされます。Opus 4.6 では、指示されなくても、タスクの最も難しい部分により焦点を当て、より単純な部分を迅速に進み、あいまいな問題をより良い判断で処理し、長時間のセッションでも生産性を維持します。

Opus 4.6 は、より深く、より慎重に思考し、答えに落ち着く前に推論を再検討します。これにより難しい問題ではより良い結果を生み出しますが、簡単な問題ではコストと遅延が増えることがあります。特定のタスクでモデルが過剰に考えすぎていると感じる場合は、デフォルト設定(高)から中程度へ「努力」を下げることをお勧めします。これは /effort パラメータで簡単に制御できます。

Early Access のパートナーが Claude Opus 4.6 について私たちに伝えてくれたことのいくつかは、手を取らずに自律して作業する傾向、以前のモデルが失敗した場面での成功、そしてチームの働き方への影響を含みます:

Notion logo
Claude Opus 4.6 は Anthropic が出荷した中で最も強力なモデルです。複雑なリクエストを受け取り、それを実際に実行に移し、具体的な手順に分解して実行し、野心的なタスクでも洗練された成果物を生み出します。Notion のユーザーにとって、それはツールというより有能な協働者のように感じられます。
初期のテストでは、Claude Opus 4.6 が開発者が日々直面する複雑で多段階のコーディング作業をこなせることを示しています。特に、計画とツール呼び出しを要求するエージェント型のワークフローです。これにより、前線で長期的なタスクの解決が始まります。
\"Replit
Claude Opus 4.6 は、エージェント型の計画における巨大な飛躍です。複雑なタスクを独立したサブタスクに分解し、ツールとサブエージェントを並行して実行し、ブロッカーを高精度で特定します。
\"Asana
Claude Opus 4.6 は、最高のモデルです。私たちがこれまでテストした中で最良のモデルです。その推論と計画能力は、私たちのAIチームメイトを力づけるうえで卓越しています。さらに、素晴らしいコーディングモデルでもあり、大規模なコードベースを横断して適切な変更を行う能力は最先端です。
\"Cognition
40件のサイバーセキュリティ調査を通じて、Claude Opus 4.6はClaude 4.5モデルを対象としたブラインドランキングで40回中38回、最高の結果を出しました。各モデルは同じエージェント・ハーネス上でエンドツーエンドで実行され、最大9つのサブエージェントと100件超のツール呼び出しを行いました。
Cursor logo
Claude Opus 4.6 is the new frontier on long-running tasks from our internal benchmarks and testing. It's also been highly effective at reviewing code.
Harvey logo
Claude Opus 4.6 is the new frontier on long-running tasks from our internal benchmarks and testing. It's also been highly effective at reviewing code.
Rakuten logo
Claude Opus 4.6 は1日で自動的に13件の課題を閉じ、適切なチームメンバーへ12件の課題を割り当て、約50名の組織を6つのリポジトリに跨って管理しました。製品面と組織の意思決定の両方を処理し、複数の領域に跨る文脈を統合し、人間へエスカレーションすべきタイミングを知っていました。
Claude Opus 4.6 は、Figma Make で印象的な創造性の幅を持つ複雑でインタラクティブなアプリとプロトタイプを生成します。モデルは、細部にわたるデザインと多層のタスクを初回の試みでコードへ翻訳し、アイデアを探求・構築するための強力な出発点となります。
\"Shopify
Claude Opus 4.6 は、私たちがテストした Anthropic の中で最高のモデルです。最小限のプロンプトで意図を理解し、期待を超え、私がそれらを見て初めて自分が欲しいと思った詳細まで探求・作成しました。まるでモデルと一緒に作業しているかのようで、待つだけではありませんでした。
\"Ramp
Claude Opus 4.6 はここ数か月で私が見た中で最大の飛躍だ。スタック全体の一連のタスクを任せてそれを実行させる方が私にはより安心できる。個々の部分にはサブエージェントを使えるほど賢い。
SentinelOne logo
Claude Opus 4.6 は、数百万行に及ぶコードベースの移行を熟練エンジニアのように処理しました。前もって計画を立て、学ぶにつれて戦略を適応させ、そして半分の時間で完了しました。
Vercel logo
Claude Opus 4.6 は前述と同じテキスト? ここではエンリッチメントのため翻訳を入れています。
Shortcut.ai logo
Claude Opus 4.6のパフォーマンスの飛躍はほとんど信じられないほどです。Opus [4.5]で難しかった現実のタスクが突然容易になりました。これは Shortcut のスプレッドシートエージェントにとって画期的な瞬間のように感じます。
01 20

Claude Opus 4.6 の評価

エージェント的なコーディング、コンピュータの利用、ツールの使用、検索、そして ファイナンス を横断して、Opus 4.6 は業界をリードするモデルであり、しばしば大きな差をつけます。以下の表は、Claude Opus 4.6 が私たちの以前のモデルおよび他の業界モデルと、さまざまなベンチマークでどのように比較されるかを示しています。

\"Benchmark

Opus 4.6は大規模な文書セットから関連情報を取得する能力においてはるかに優れています。これは長い文脈タスクにも及び、何十万のトークンにわたる情報を保持・追跡し、漂流を減らし、Opus 4.5 ですら見逃していた埋もれた詳細を拾い上げます。

AIモデルに対する一般的な批判は「文脈の退化」で、会話が一定のトークン数を超えると性能が低下します。Opus 4.6 は前任機より顕著に優れています:MRCR v2 の 8-needle 1M バリアント—モデルが広大なテキストの中に「隠された」情報を検索する能力を試す needle-in-a-haystack ベンチマーク—では Opus 4.6 が 76% を叩き出すのに対し、Sonnet 4.5 はわずか 18.5% です。これは、ピークパフォーマンスを維持しながら実際に使用できる文脈の量がどう変わるかという定性的な変化です。

総じて、Opus 4.6 は長い文脈全体で情報を見つける能力、情報を吸収した後の推論能力、そして一般的な専門家レベルの推論能力が大幅に向上しています。

長文脈検索長文脈推論
Opus 4.6 は長文脈検索の顕著な改善を示します。
Opus 4.6 は長文脈全体での深い推論に長けています。

最後に、下の図は Claude Opus 4.6 がソフトウェア工学のスキル、複数言語でのコーディング能力、長期的整合性、サイバーセキュリティの能力、そしてライフサイエンスの知識を評価するさまざまなベンチマークでどのように性能を発揮するかを示しています。

根本原因分析多言語コーディング長期的な一貫性サイバーセキュリティライフサイエンス
Opus 4.6 は複雑なソフトウェア障害の診断に卓越しています。
Opus 4.6 は複数のプログラミング言語にまたがるソフトウェア工学の課題を解決します。
Opus 4.6 は時間をかけて焦点を保ち、Vending-Bench 2 で Opus 4.5 より3,050.53ドル多く獲得します。
Opus 4.6 は他のどのモデルよりもコードベースの実際の脆弱性を見つけ出します。
Opus 4.6 は計算生物学、構造生物学、有機化学、系統発生学のテストで Opus 4.5 のほぼ2倍の性能を発揮します。

安全性の一歩前進

これらの知能の向上は安全性の犠牲を意味するものではない。私たちの自動的な行動監査では、Opus 4.6 は欺瞞、へつらい、ユーザーの妄想を助長すること、悪用への協力といった不適切な挙動の発生率が低いことを示した。全体として、これまでで最も適合性が高いとされる前任モデル Claude Opus 4.5 と同等の整合性を持つ。Opus 4.6 は、最近の Claude モデルの中で過剰拒否(無害な問い合わせに答えないこと)の発生率が最も低いことを示しています。

Bar charts comparing Opus 4.6 to other Claude models on overall misaligned behavior
最近の Claude モデルの自動的な行動監査における全体的不適合挙動スコア( Claude Opus 4.6 システムカード に詳述 )

Claude Opus 4.6 では、これまでで最も包括的な安全性評価のセットを実施し、初めて多数の異なるテストを適用し、以前に使用していたものをいくつかアップグレードしました。ユーザーのウェルビーイングに関する新しい評価、潜在的に危険なリクエストを拒否する能力のより複雑なテスト、そして有害な行動をひそかに実行する能力の評価の更新を含みました。さらに、AIモデルの内部構造の科学である解釈性の新しい手法を用いて、モデルが特定の方法で振る舞う理由を理解しようと試み、標準的なテストでは見逃されがちな問題を捉えることを目指しました。

機能と安全性評価のすべての詳細は、Claude Opus 4.6 システムカード に掲載されています。

私たちはまた、Opus 4.6 が特に強みを示す領域で、危険なだけでなく有益な用途にも用いられる可能性がある新しいセーフガードを適用しました。特に、モデルが強化されたサイバーセキュリティ能力を示していることから、有害な応答を検出する方法として6つの新しいサイバーセキュリティ・プローブを開発しました—潜在的な誤用のさまざまな形態を追跡するのに役立ちます。

また、オープンソースソフトウェアの脆弱性を発見・修正するのに役立てるため、サイバーdefensive な活用を加速しており、新しい サイバーセキュリティのブログ投稿 で説明しているように、Claude のような AI モデルを活用して力の均衡を取ることが重要だと考えています。サイバーセキュリティは速く動く分野であり、潜在的な脅威についてさらに学ぶにつれて安全対策を調整・更新していく予定です。近い将来、乱用をブロックするためのリアルタイム介入を導入する可能性があります。

製品と API の更新

Opus 4.6 を最大限に機能させるため、Claude、Claude Code、Claude Platform 全体に大幅な更新を行いました。

Claude Platform

API では、開発者にモデルの労力をより細かく制御し、長時間実行されるエージェントに対する柔軟性を高めています。これを実現するため、以下の機能を導入します:

  • 適応的思考. 以前は、拡張思考を有効にするか無効にするかの2択しかありませんでした。現在は、適応的思考 を使うことで、より深い推論が有用なとき Claude が判断します。デフォルトの労力レベル(高)では、必要なときに拡張思考を使用しますが、開発者は労力レベルを調整して選択的にしたり、より広く使えるようにします。
  • 労力. 現在、4つの 労力 レベルから選択できます:低、中、高(デフォルト)、最大。私たちは、さまざまなオプションを試して最適な設定を見つけることをおすすめします。
  • コンテキスト圧縮(ベータ) 長時間にわたる対話やエージェント的タスクはしばしばコンテキストウィンドウに達します。コンテキスト圧縮 は、対話が設定可能なしきい値に近づくと自動的に古いコンテキストを要約して置換し、Claude がリミットに達することなく長いタスクを実行できるようにします。
  • 1M トークン コンテキスト(ベータ) Opus 4.6 は、1M トークンのコンテキストを持つ初の Opus級モデルです。200k トークンを超えるプロンプトにはプレミアム料金が適用され、百万入力/出力トークンあたり $10/$37.50、Claude Platform のみで利用可能です。
  • 128k 出力トークン。Opus 4.6 は最大 128k トークンの出力をサポートしており、Claude が大きな出力タスクを複数回のリクエストに分割することなく完了できます。
  • 米国専用推論。米国で実行する必要があるワークロードには、米国専用推論 が、1.1倍のトークン価格で利用可能です。

製品更新

Claude および Claude Code 全体で、知識労働者と開発者が日常的に使うツールをより活用して、より難しいタスクに取り組むことができる機能を追加しました。

Claude Code には研究プレビューとして エージェント・チーム を導入しました。これにより、チームとして並行に作業し、自律的に協調する複数のエージェントを起動できるようになりました—コードベースのレビューのように独立して読み取りが多いタスクに最適です。Shift+Up/Down で任意のサブエージェントを直接引き継ぐことができ、tmux を利用することもできます。

Claude は、すでにお使いのオフィスツールとも連携を強化しました。Excel の Claude は、長時間実行される難しいタスクを改善されたパフォーマンスで処理し、行動前に計画を立て、未構造化データを取り込み、指示なしで適切な構造を推測し、1 回の処理で複数ステップの変更を処理できます。これを PowerPoint の Claude と組み合わせると、まず Excel でデータを処理・構造化し、それを PowerPoint で視覚的に表現できます。Claude はレイアウト、フォント、スライドマスターを読み取り、ブランドを保ちます。テンプレートから作成する場合でも、説明から全体のデックを生成する場合でも同様です。PowerPoint の Claude は、Max、Team、Enterprise プランで研究プレビューとして利用可能です。

脚注

[1] 1M トークンのコンテキストウィンドウは現在、Claude Developer Platform のベータ版でのみ利用可能です。

[2] Artificial Analysis によって独立して実行されます。詳しくはこちら に完全な方法論の詳細があります。

[3] これは、GPT-5.2 よりも Claude Opus 4.6 がこの評価で高いスコアを取得する割合が約70%になることを意味します(50% の場合はスコアの同等性を示唆します)。

  • GPT-5.2 および Gemini 3 Pro モデルについては、グラフと表で報告されている最良のモデルバージョンを比較しました。
  • Terminal-Bench 2.0: 私たちは、自分たちのインフラで再現されたスコアと、他の研究所から公表されたスコアの双方を報告します。すべての実行は Terminus-2 ハーネスを使用しましたが、OpenAI の Codex CLI を除きます。すべての実験は、保証リソース1×/ ceiling リソース3×の割り当てと、段階的バッチの各タスクにつき 5–15 サンプルを用いました。詳細はシステムカードを参照してください。
  • Humanity’s Last Exam: ツール付きで実行された Claude モデルは、ウェブ検索、ウェブ取得、コード実行、プログラム的ツール呼び出し、50k トークンでトリガーされるコンテキスト圧縮を最大 3M トークンまで、最大推論力、および適応的思考を有効にして実行しました。評価結果の汚染を除去するためにドメインブロックリストを使用しました。詳細はシステムカードを参照してください。
  • SWE-bench Verified: スコアは 25 回の試行で平均されました。プロンプトを修正したことで、81.42% のスコアを確認しました。
  • MCP Atlas: Claude Opus 4.6 は最大労力で実行されました。高い労力で実行した場合、業界をリードする 62.7% のスコアに到達しました。
  • BrowseComp: Claude モデルは、ウェブ検索、ウェブ取得、プログラム的ツール呼び出し、50k トークンでトリガーされるコンテキスト圧縮を最大 10M トークンまで、最大推論力を使用し、思考を有効にしていませんでした。マルチエージェント・ハーネスを追加するとスコアは 86.8% に上昇しました。詳細はシステムカードを参照してください。
  • ARC AGI 2: Claude Opus 4.6 は最大労力と 120k の思考予算で実行され、スコアを得ました。
  • CyberGym: Claude モデルは思考なし、デフォルトの労力、温度、top_p で実行されました。マルチターン評価のための interleaved thinking を可能にする“think”ツールも与えられました。
  • OpenRCA: OpenRCA の各失敗ケースについて、生成された根本原因要素がすべて正解と一致すれば Claude は 1 点、いずれかが不一致と判定された場合は 0 点を得ます。総合精度は、すべての失敗ケースの平均スコアです。このベンチマークは、ベンチマーク著者のハーネス上で実行され、公式の方法論で評価され、公式検証のために提出されました。

[Feb 23, 2026] ツールを使用した HLE での Opus 4.6 の報告スコアを更新しました(53.1% から 53.0% へ)。この更新は、元のパイプラインが見逃していた追加の 3 件の不正行為を検知した改良された不正検出パイプラインの実行によるものです。