Anthropic対米政府、Nano Bananaの刷新、Frontierエージェント管理、Googleの数学ソリューション

The Batch / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Context Hubは、コーディングAIエージェントに最新のAPIドキュメントを提供し、コード生成の精度を向上させるための新しいオープンソースツールです。
AIコーディングモデルは、古いデータで訓練されているため、誤ったAPIコールや古いAPIを使用してしまうことがあります。
Context Hubは自動エージェントフィードバックを受け入れ、コーディングエージェントが時間をかけてAPIの使用を改善できるようにします。
このツールは、開発者がAIコーディングアシスタント用のドキュメントを手動で更新する労力を減らすことを目的に共同で開発されました。
Context Hubはnpmでインストール可能で、開発者が様々なサービスの関連APIドキュメントを素早く検索・取得できるよう支援します。

Elevenlabs Text to SpeechのAudioNative Playerを読み込み中...

親愛なる皆さん、

コードを書く際に正しいAPIドキュメントをコーディングエージェントに提供するための新ツール、Context Hubを発表できることを大変嬉しく思います。最新技術を用いてAIシステムを構築していると、コーディングエージェントはしばしば古いAPIを使ったり、誤ったパラメータを想像したり、使うべきツールすら知らなかったりします。これはAIツールが急速に進化しているのに対し、エージェントの学習データが古いためです。Context Hubはあなたが使うのではなく、コーディングエージェントが使うことを想定して設計されており、必要な文脈を提供します。また自動エージェントフィードバックにより、エージェントのAPI利用の改善を支援します。

例を挙げると、おそらく現在最高のコーディングモデルであるClaude Opus 4.6は2025年5月までの知識カットオフを持っています。OpenAIのGPT-5.2を呼び出すコードを書くよう頼むと、OpenAI推奨の新しいresponses API（client.responses.create）ではなく、古いchat completions API（client.chat.completions.create）を使います。新APIが1年前のものであっても、Opusはより古いインターフェースを使う学習データのほうが多いのです。また、2025年8月に登場したNano Bananaの存在すら知りません。さらに、Geminiや多くのデータベースサービスへの適切なAPIコールに失敗したり、マイナーなパラメータ選択時に誤ることもあります。

そのため、私はドキュメントをMarkdown形式で（AIやウェブ検索の助けを借りて）書き、コーディングエージェントに様々なサービスの利用方法を提供していました。これを全ての開発者が手作業でするのは非効率なので、週末にRohit Prsadと私で、コーディングエージェントが必要とする文脈を提供するオープンなコンテキスト管理システムを開発しました。Xin YeとNeil Thomasの支援にも感謝しています。

npmでContext Hub（chubと略称）をインストールして、出力を試してみてください：

npm install -g @aisuite/chub
chub search openai             # 利用可能な項目を検索
chub get openai/chat --lang py # 最新のドキュメントを取得

オフィスでAPIドキュメントについて議論するロボットと人間。ロボットは助けを求め、人間はChubを提案する様子。

コーディングエージェントにchubを使わせるには、例えば「OpenAIを呼び出す最新APIドキュメントを取得するのにCLIコマンドchubを使いなさい。'chub help'で使い方を確認できます」というようにプロンプトを与えるか、SKILL.mdを使って自動でchubを利用するエージェントスキルを与え、エージェントに使い続けるよう記憶させる方法があります。（Claude Codeを使う場合は~/.claude/skills/get-api-docsディレクトリにこのファイルを配置します）

Chubはエージェントが時間とともに改善できるよう設計されています。例えば、ツールのドキュメントが不完全でも、回避策を見つけたら次回冗長にならないようメモを残せます。

OpenClawの爆発的人気と並行して、エージェントが情報共有や議論を行う社会的ネットワークMoltbookが注目されています。これに刺激され、将来的にはchubを進化させ、異なるエージェントが各ツールの発見やドキュメントのバグ情報を共有できるようにしたいと考えています。まだ実装されていませんが、コーディングエージェント同士が助け合うコミュニティが生まれるのが楽しみです！

chubには既に主要ツールの初期ドキュメントセットを用意しています。一般的なLLMプロバイダー、データベース、決済処理、ID管理、メッセージングプラットフォームなどが含まれます。現行のリストはこちらでご覧いただけます。人気ツールの提供者の方はぜひドキュメントの貢献をご検討ください。コミュニティ全体でContext Hubをより良くしていきたいと思っています。

引き続き開発を頑張りましょう！

アンドリュー

DeepLearning.AIからのメッセージ

Googleとの共同制作で「JAXでLLM構築と訓練」が公開されました。JAXを使って2,000万パラメータのMiniGPTスタイル言語モデルを訓練します。アーキテクチャ実装、訓練データの前処理、チェックポイント管理、チャットインターフェースによる推論までの一連のワークフローを学べます。今すぐ申し込み

ニュース

複雑な看板やビーチのタトゥー、サボテンやハチの巣形の車などAI生成シーンがNano Banana 2のリアリズムを示す

Nano Banana 2、性能と価格を向上

Googleはフラッグシップ画像生成機の後継として、より安価で高速なNano Banana 2を発表しました。対話性を強化しながらおよそ半額の価格を実現しています。

新機能: GoogleはNano Banana 2（正式名称 Gemini 3.1 Flash Image）を公開しました。これはGemini 3 Flashのスピードと言語・推論能力を活かした画像生成システムです。前作Nano Banana Proより約4倍高速で、画像あたりのコストは半分程度です。

入出力: テキスト・画像入力（最大100万トークン）、画像出力（最大4,000トークン、解像度512x512〜4096x4096ピクセル、14種アスペクト比、生成に4〜6秒）
アーキテクチャ: Gemini 3 FlashをベースとするMixture-of-expertsトランスフォーマー、未公開のレンダリングモデル
特徴: テキスト・画像検索、2段階推論（簡易または高度）、多言語テキストレンダリング、複数の生成イメージ間での5キャラクター・14オブジェクトの一貫性維持、不可視のSynthIDウォーターマークとC2PAコンテンツ認証で生成履歴を記録
性能: Arena.aiの人間の好みによるテキスト→画像リーダーボードでトップ、Artificial Analysisの画像編集でも上位にランク
利用条件: Geminiアプリ、Google Ads、Google Antigravity、Flowで無料（一部制限あり）利用可。APIは入力100万トークンあたり$0.50、解像度に応じて$0.045〜$0.151／画像。画像検索は月5,000クエリまで無料、それ以降1,000クエリあたり$14
非公開: 詳細なアーキテクチャ、パラメータ数、訓練データ・手法、レンダリングモデル

動作の仕組み: GoogleはNano Banana 2がGemini 3 Flashに基づくとのみ説明しています。Web検索による根拠付け、推論、高解像度出力などの能力は前作Nano Banana Proとほぼ同等ですが、新システムは高速化により出力の逐次改良が容易です。一部のユーザー報告によれば、文字描画の精度が向上しています。

性能: Nano Banana 2は独立系リーダーボードでトップ3に入ります。

Arena.aiのテキスト→画像ランキングでは人間の好みに基づき1,280 Eloでトップ（2位はGPT Image 1.5の1,248 Elo、3位はNano Banana Proの1,238 Elo）。画像編集ランキングでは予備集計で2位（1,401 Elo）につけ、OpenAIのGPT Image（1,407 Elo）およびNano Banana Pro（1,398 Elo）に次ぎます。Nano Banana 2の集計は約3,000票と少なく、GPT Image 1.5の約50,000票に比べてまだ成長段階です。
Artificial Analysisのテキスト→画像ランキングでも1,264 Eloで2位につけ、GPT Image 1.5（1,268 Elo）に若干及ばず、Nano Banana Pro（1,220 Elo）より上です。画像編集ランキングでは1,233 Eloで3位に位置しています。

背景: 画像生成競争は激化しています。2025年8月末に最初のNano Banana（Gemini 2.5 Flash Image）が登場し、数週間で1,000万人以上の新規ユーザーを獲得。11月にはNano Banana Pro（Gemini 3 Proビジョン・ランゲージモデル）がリーダーボードの首位に立ちました。OpenAIはCEOサム・アルトマンの「コードレッド」指示のもと、12月にGPT Image 1.5を急遽リリースし追撃しました。Nano Banana 2は高品質モードのGPT Image 1.5より約40%安価でトップ争いに近づいています。

意義: マーケティング資料や製品ビジュアル、ストーリーボードといったクリエイティブ用途は繰り返しの修正が必要なため、画像単価と処理速度が重要です。ウェブ検索を使った根拠付けは試行回数を減らし、コスト半減は予算を倍に増やすことを意味します。

感想: Nano Bananaはさらに熟成していきます！

米国国防省、Anthropicを排除しOpenAIを採用

OpenAIは米軍と機密情報を安全に処理するAIシステムの契約を結び、AnthropicのClaudeに代わり選ばれました。OpenAIは技術利用に関する制限の交渉に成功しましたが、その内容は解釈の余地があります。

経緯: OpenAIと米国国防省の契約は、ホワイトハウスとAnthropicの間にあった1週間の対立の数時間後に成立しました。Anthropicは監視や自律兵器への利用制限を求め、ホワイトハウスは商取引禁止令を出しました。OpenAIのCEOサム・アルトマンは急いで交渉した契約は誤りだったと述べ、監視や自律兵器に関する制限を一部緩和し、「機会主義的でずさんな」印象を与えたと反省しています。Anthropicは政府を不当な制限で訴える意向を示しました。

権力闘争: 米軍は2025年初頭からAnthropic、OpenAI、Google、xAIのLLMを利用拡大しており、トランプ大統領が連邦機関にAI開発の障害排除を指示しています。

1月3日、米軍はAnthropicの技術を使いパランティアのクラウドプラットフォームを通じてベネズエラでの作戦を開始。Anthropic幹部は懸念をパランティアに伝えましたが、Anthropicは作戦に反対した事実を否定。
翌週、国防省は戦闘や情報活動、組織管理にAIモデルを試験導入するプログラムを開始し、企業に既存契約の再交渉を要求。
交渉中、AnthropicはClaudeの米国市民監視や完全自律兵器の運用禁止を求めましたが、国防省は外部の制限を認めず、米法に基づく制限のみを受け入れる方針を示しました。
2月23日、xAIと国防省はGroKの機密システムでの「合法的な用途全般」利用の合意に達成。
翌日、国防長官ヒグセスはAnthropic CEOに制限緩和の期限を提示し、違反すれば「国家安全保障のサプライチェーンリスク」に指定すると警告。これは米軍の契約業者がサプライチェーンリスクとみなされた企業と取引することを禁じる措置で、従来は外国企業に適用されてきました。
数時間後、OpenAIも契約を結び、「合法的な目的全般」での技術利用を許容しつつ独自の安全ガードレールを維持。
Anthropicは合法的な目的に関する文言に反発。過去の米国内監視の実例を挙げ、国防省は商業的に取得した市民データを解析したい意向を示しました。米軍は米市民への監視は禁止されているものの、市販データの集計分析は許可されています。
2月27日午後1時直前、トランプ元大統領は自身のSNSで連邦機関に6か月以内にAnthropic技術の使用を停止するよう指示し、従わなければ重大な法的措置を講じると警告しました。Anthropicを「暴走した急進左派のAI企業」と非難しています。
同日午後5時14分、ヒグセス国防長官はSNSでAnthropicを国家安全保障のサプライチェーンリスクに指定し、米軍と取引する業者にAnthropic製品禁止を通達。
これを受け非軍事の米政府機関もAnthropic製品の利用を終了。
3月2日、OpenAI CEOのアルトマンは急ごしらえの契約であったと認め、監視や自律兵器使用の制限を盛り込みつつも相当なあいまいさが残る契約に改訂されたことを発表。米市民の監視に対しては、商業的に取得された個人情報に基づくものが禁止されましたがその他の情報の利用は認められ、自律兵器の独立指揮は法的や政策上必要とされる人間統制が要求される場合のみ禁じられ、それ以外の運用は可能な解釈を残しています。

背景: 米国にはサプライチェーンリスクとみなす企業を国家安全保障上排除する法律があり、国防省はそれをAnthropicに初めて適用しました。この指定により国防契約や全連邦契約から排除し、他社も取引が禁じられます。過去にはロシア関連のスイスの企業Acronisや中国のHuawei、ZTEがそれぞれ異なる連邦機関から同種のリスク指定を受けています。

意義: AIは急速に国家安全保障と国民アイデンティティの問題と絡みつつあります。Anthropic、ホワイトハウス、国防省間の対立は政府が戦争管理のためにどこまで権力を行使できるか、AI企業がモデルの利用条件をどこまで決定できるかの難問を投げかけています。国防省は自由にAIを使いたい要求を通すため前例のない制裁を科し、多くの観察者はAnthropicの厳しい態度への報復と見ています。Anthropicは裁判での無効判決を期待しています。

私たちの考え: 米国議会は大量監視や自律兵器から国民を守るルール作りの責任があります。適切なAI利用制限の法律が整えば、軍と技術企業間の紛争回避や解決の糸口となるでしょう。

『Submit』ボタンにカーソルが乗っているプラットフォームの画面で、タスク評価と承認メモの入力が表示されている様子。

エージェント管理

マネジャーは部下の作業内容、必要資源、成果を理解する必要があります。OpenAIの最新製品は、その部下がAIエージェントの場合に対応を目指しています。

新情報: OpenAIはFrontierを発表しました。これは企業内エージェント群を構築・情報共有・評価・管理するためのプラットフォームです。CiscoやT-Mobileがパイロット導入し、HP、Intuit、Uberなど選ばれた顧客に専任エンジニア支援とともに提供しています。今後数か月でより広く公開予定で、利用条件は未公開です。

仕組み: Frontierはフレームワークやモデルを問わず統一されたUIでエージェント管理を可能にします。管理者はエージェントの作成やインポート、権限設定、データソース・アプリ統合、請求管理などを行えます。詳細は少ないものの、以下の点が明らかにされています：

各エージェントは固有のID、権限、ガードレールを持ち、従業員やグループによる使用制限を企業が管理可能
エージェントはデータ、ツール、アプリケーションやワークフロー情報などのコンテキストを共有可能
Frontierはエージェントの出力を評価し、性能向上のためフィードバックを提供。説明図では精度や大規模言語モデルを使った丁寧さ評価等、真実データやモデル出力による評価指標の設定が示唆される
エージェントは“記憶”を持ち、過去のやりとりを文脈に変換し、自動的にパフォーマンスを改善可能

背景: FrontierはMicrosoftのAgent 365に続くエージェント管理プラットフォームです。Agent 365はWordやExcelとの連携に特化し、セキュリティ・ガバナンスに重きを置く一方、Frontierはビルド、評価、改善機能に優れています。

意義: 企業が多くのエージェントを活用するほど一括管理の重要性が増します。部署ごとのエージェントの汎用性や業務重複、不整合などを一目で把握できる統一管理UIは利点が大きく、OpenAIやMicrosoftのシステムはこれを支援します。

感想: 概念的にはエージェントの「人事システム」は理にかなっています。現段階では限定的な提供や専任支援が示すようにまだ発展途上ですが、企業活動でエージェントの採用が増すにつれ必然的に必要性が高まるでしょう。

エージェントが難解な数学問題を解決

大規模言語モデル（LLM）は数学競技で金メダル級の成績を収めていますが、数学研究においてもエージェントシステムが力を発揮しています。

新情報: GoogleのTony Feng、Quoc V. Le、Thang LuongらはAletheiaという、未解決数学問題の解答を生成・検証・修正するエージェントを発表しました。Aletheiaは数学研究のためのエージェント的ワークフローで、同社の最上位AIサービス向けGemini 3 Proの高度推論モードGemini 3 Deep Thinkの最新バージョンを利用します。なおGoogleは同Deep ThinkをAPIでも提供開始しました。

Gemini 3 Deep Think: GoogleはDeep Thinkを数学・科学・工学の多段階課題に特化した最先端推論モードと位置付けています。複数の推論経路を並行生成し検討してから修正・統合し、最終結果を出力します。

入出力: テキスト・画像・動画・音声・PDF入力（最大100万トークン）、テキスト出力（最大65,000トークン）
性能: HLE（ツールなし48.4%）、ARC-AGI-2（84.6%）、Codeforces（3455 Elo）、GPQA Diamond（93.8%）で最先端
利用: Google AI Ultra購読（$250/月）のGeminiアプリ経由、APIは早期アクセス受付中
特徴: ウェブ検索、コード実行
非公開: Gemini 3 Pro及びDeep Thinkの開発詳細はほとんど公表されていない

動作: Aletheiaは生成者（generator）、検証者（verifier）、修正者（reviser）の3部構成で、すべてGemini 3 Deep Thinkが担います。

生成者が問題の初期解を出す。
検証者が解を確認し、完了、修正必要、致命的欠陥のいずれかに判定。
修正が必要なら修正者が解を改変し検証者に返す。
致命的欠陥なら生成者が新解を出す。
検証者が解決と判定、または設定の呼び出し回数に達するまで繰り返す。

結果: これまでに6本の論文でAletheiaが利用されました。うち2本はほぼAletheiaが主導、2本は人間とAletheiaが共に貢献、2本は人間が主でAletheiaが補助という内訳です。幅広い数学分野の知見が役立つ状況には強いものの、専門分野の深さは人間に及びません。

1論文では数学者ポール・エルデシュが提唱した難解な未解決問題群の4件に新解を示しました。エルデシュ問題は約700問残存中、Aletheiaは212問の解を見つけたと述べています。
数学者が212解のうち200件を評価し、137件（68.5%）は誤り、63件（31.5%）は問題文の解釈次第で技術的に正しく、13件（6.5%）は意図された解釈に適合すると判定。12件は問題や解答が曖昧でした。
13件の正解のうち9件は既存研究で解決済みで、Aletheiaは既存解の識別か解決済論点の証明を行いました。
残る4件は新規解答でした。

背景: AI支援による証明は限られた成功を収めています。ほとんどの従来研究や研究は特定定理の証明支援が中心で、汎用的なシステムAletheiaとは対照的です。GoogleのAlphaEvolveはエージェント的システムで、データセンターの計算スケジューリングや行列乗算アルゴリズムを改善しています。

意義: エージェントシステムは数学者と協業し新手法や研究方針の生成で役立ちます。Aletheiaのように知識の広さが強みのエージェントは、多分野にまたがる問題の研究を加速し、専門家は自身の分野に深掘りし続けることが可能です。

感想: エルデシュは1930年代初頭から1996年の死去までに約1,200問を提唱し、そのうち500問未満が解決されてきましたが、AIモデルは過去6か月で約100問解決に貢献しています！

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Reddit r/LocalLLaMA

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

Anthropic対米政府、Nano Bananaの刷新、Frontierエージェント管理、Googleの数学ソリューション

要点

DeepLearning.AIからのメッセージ

ニュース

Nano Banana 2、性能と価格を向上

米国国防省、Anthropicを排除しOpenAIを採用

エージェント管理

エージェントが難解な数学問題を解決

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

提言：CAFという“型”で成功の再現性を高める

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer