先週のAIまとめ #340 - OpenAI vs ムスク+マイクロソフト、DeepSeek v4、Vision Banana

Last Week in AI / 2026/5/5

💬 オピニオンSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • ニュースレターでは、エロン・マスクとサム・アルトマンの対立がより顕在化するなど、OpenAIをめぐる大きな動きが取り上げられています。
  • また、OpenAIが、マイクロソフトの「Amazonとの500億ドル規模の取引」に関連した法的リスクへの対応を進めた点も紹介されています。
  • DeepSeekが新しいAIモデルをプレビューし、「最先端のフロンティア・モデルとのギャップを埋める」と主張していることも注目点です。
  • 全体として、今週は企業間の競争、モデル開発の進展、新しいプロダクト方向性が入り混じる、非常に動きの速い週だと位置づけています。

先週のAI #340 - オープンAI対ムスク + マイクロソフト、ディープシークv4、ビジョン・バナナ

ムスク対アルトマンの最初の週。オープンAIは、Amazon案件(500億ドル)をめぐるマイクロソフトの法的リスクを終結させる。さらに、ディープシークは新しいAIモデルのプレビューで「フロンティアモデルとのギャップを埋める」ことを示し、ほかにも盛りだくさんです!

Last Week in AI's avatar
2026年5月5日
8
1
共有

概要:カリフォルニア州オークランドで行われたMusk v. Altmanの裁判の第1週は、3日間にわたり、イーロン・マスクの証言が審理を支配する形で締めくくられました。マスクの法律チームは、最大1,340億ドルの損害賠償、アルトマンとブロックマンの解任、そしてOpenAIの営利目的への転換を元に戻す(for-profit conversionの解消)ことを求めています。マスクは2015年にOpenAIを非営利として共同創業し、同団体に約3,800万ドルを寄付しました。

これまでの主要な事実は、

  • マスクは繰り返し「慈善団体を盗むだけでは済まない」と主張し、CEOのサム・アルトマンおよび大統領(President)のグレッグ・ブロックマンが、非営利の創業ミッションを裏切り、現在8,500億ドル超と評価される営利団体へ転換したのだと述べました。

  • マスクは、OpenAIを「グーグルのDeepMindに対する拮抗(カウンターウェイト)」として作ったと証言し、自分が「そのアイデアを思いつき、名前を考え、主要人物を引き入れた」と述べました。

  • OpenAI側の主要弁護人ウィリアム・サヴィットによる反対尋問の中で、マスクは、xAIがOpenAIのモデルを「部分的に」使って自社の学習を行った(一般に「蒸留」と呼ばれる)ことを認めましたが、それを「標準的な実務(standard practice)」だとして軽く見せました。

  • 裁判が始まる2日前に、マスクがブロックマンに対して潜在的な和解についてテキストを送っていたことが、その後明らかになりました。ブロックマンが「双方ともすべての主張を取り下げるべきだ」と提案すると、マスクは「今週末までに、君とサムはアメリカで最も嫌われる男になる」と返信したのです。

  • 裁判中に公開された証拠(exhibits)には、マスクがOpenAIのミッションを起草していることを示す初期のメール、マスクによる支配への推進に関する社内の緊張、テスラとOpenAIの合併を提案したアンドレイ・カルパティ、そして2024年12月のiMessageのやり取りが含まれていました。そこでは、ザッカーバーグがマスクに対し、Metaがカリフォルニア州司法長官(AG)宛てに、自身の訴訟を支持する書簡を送ったと伝えています。

  • 第2週は、グレッグ・ブロックマンが証言台に立ったことから始まりました。ブロックマンは、OpenAIがIPO(新規株式公開)を検討しており、それが史上最大級のものになり得ると確認しました。同社は非公開の企業価値が8,500億ドルとなっているためです。ブロックマンはさらに、自身がOpenAIの株式を約300億ドル分保有していることを明かしました。これは彼を、世界で最も裕福な人々の一角に位置づける規模です。加えて、ストライプ株式を4億7,100万ドル分保有していることも分かりました。

この裁判は

出典

まとめ:マイクロソフトとオープンAIは、オープンAIによるAmazonとの最大500億ドル規模のディール以降くすぶっていた法的紛争を解決する形で、両社の提携契約を再交渉しました。新条件は、従来のマイクロソフトの無期限の独占(オープンAIがAGIを達成するまで続くもの)を、2032年まで有効なオープンAIのIPに対する非独占のライセンスで置き換えます。マイクロソフトは引き続きオープンAIの「主要なクラウドパートナー」であり、必要な能力をマイクロソフトが支えられない場合を除き、オープンAIの製品は「まずAzureで」出荷されます。しかし重要なのは、オープンAIが、AWSを含むあらゆるクラウド事業者のもとで自社製品すべてを提供できるようになったことです。

この主要な対立の発端は、2026年2月のオープンAIによるAmazonディールでした。そこには、AWSがオープンAIの「エージェント製造ツール」であるFrontierをホストすることについての独占権、ならびにAWS Bedrock(長時間稼働するAIエージェントを支えるインフラ)上でのステートフル実行技術の共同開発が含まれていました。マイクロソフトの従来契約では、Frontierを含む、オープンAIのAPIにアクセスする製品すべてに対する独占権がマイクロソフトに与えられていました。そのため、マイクロソフトはAWSの独占条件を公に否定し、さらに法的措置を検討していたと報じられています。新しい合意では、次のようになります。マイクロソフトはオープンAIへの売上分配の支払いを停止し、一方でオープンAIは(上限の対象となる条件で)2030年までマイクロソフトへ売上分配を払い続けます。さらに、マイクロソフトはオープンAIの営利事業体の約27%の持分を維持します。そして、AmazonのCEOであるアンディ・ジャシーが、オープンAIのモデルは、今後予定されているStateful Runtime Environmentと並んで、AWS Bedrockでも利用可能になることを確認しました。

私たちの見解:今となっては忘れがちですが、2019年から2022年の間にマイクロソフトがオープンAIに30億ドル投資していなければ、私たちがChatGPTを持てていなかった可能性は高いです。とはいえ、ChatGPT以前のその時期に彼らが築いた緊密な契約上の結びつきは、近年のオープンAIにとって明らかに別の頭痛の種にもなっていました。新条件によって収益を逃す可能性があるとしても、この新しい取引は、それでもなおオープンAIにとって勝ちだと言えるでしょう。 彼らがAmazon BedrockでオープンAIモデルが利用可能になると発表した速さは、非独占の条件であることの価値が彼らにとって非常に大きいことをはっきり示しています。

DeepSeek、「フロンティアモデルとの差を埋める」新しいAIモデルをプレビュー

関連:

概要:DeepSeekは、DeepSeek V4 FlashとV4 Proのプレビュー版をリリースしました。どちらもテキストのみの混合専門家(Mixture-of-Experts)モデルで、コンテキストウィンドウは100万トークンです。V4 Proは総パラメータが1,600億で、稼働パラメータは490億。一方でV4 Flashは総パラメータが2,840億で、稼働パラメータは130億です。これまでのリリースと同様に、重みはHugging Faceでオープンソース化されています。さらに、アーキテクチャにおける主要な技術的イノベーションを説明する詳細な技術レポートも公開されています。DeepSeekは、V3.2に比べて大幅な効率性と性能の向上を主張しており、推論およびコーディングの結果は、一部のベンチマークにおいて主要なモデルに近づく、あるいは同等の水準にあります。

V4-Pro-Maxは、中国の最近注目されたOSSリリース(Kimi-K.26およびGLM-5.1)よりも、ほぼ一様に優れているだけでなく、コンテキストウィンドウも大幅に大きいです。

これらのモデルは競争力のある価格設定です。フロンティアの西側モデルよりも低価格で、同等のオープンソース・モデルとも互換性があります。また、使用するサービスによっては、より高いスループットを実現できる可能性があるようです。

私たちの見解: 先ほどの 前回のポッドキャスト回で話したとおり、DeepSeekはv4において、超長文コンテキストにおける「効率性の壁」への対処が主目的だとしており、それにより「テスト時スケーリングからのさらなる伸びや、…長期的なシナリオやタスクへのさらなる探究」が可能になるとしています。そう考えると、v4は、標準的なほとんどのベンチマークでは互角に近いものの、Kimi K2.6や場合によってはGemini 3.1 proよりも、実世界のエージェント的コーディングにおいて実際により大きな能力を持つのだと思います。

Google DeepMindがVision Bananaを発表

Refer to caption

Summary:Google DeepMindが Image Generators are Generalist Vision Learners を公開し、知覚を画像生成として扱うことで、画像生成と視覚理解の両方のタスクを実行する統一モデル「Vision Banana」を導入しました。ベースの画像生成器であるNano Banana Proに対する軽量な指示チューニングによって構築されており、セマンティックセグメンテーション、インスタンスセグメンテーション、単眼のメトリック深度推定、表面法線推定を、タスク固有のモジュールを一切使わずに処理できます。方法は単にプロンプトを変えるだけです。中核となる洞察はLLMの学習パラダイムと同じです。すなわち、テキストに対する生成的な事前学習が豊かな言語表現を育てるのと同様に、画像生成に対する学習は暗黙にモデルに幾何・意味・深度を教え、その知識はデコード可能な形式で表現できるようになります。

ゼロショット転移の複数のベンチマークにおいて、Vision Bananaは専門モデルを上回ります。しかも、訓練には評価ベンチマークのデータは含まれていません。重要なのは、指示チューニングが生成性能を損なわないことです。Vision Bananaは、GenAI-Benchのテキストから画像生成において、Nano Banana Proに対して53.5%の勝率を達成しています。

私の見解:これは本当にすごいです! しばらく前から、視覚と言語のモデルが、物体検出や位置特定のようなかなり高度なコンピュータビジョンタスクに対してゼロショットで対応できることはわかっていましたが、その発想をここまで極限まで押し広げた形を見るとは、私には予想できませんでした。 このモデルは、これまで一般に特化したモデルが扱ってきた一連のタスクを丸ごとこなせるだけでなく、これらのタスクに関しては、それらより優れている、あるいは少なくとも同等のように見えます。 ほろ苦い教訓がまたやって来たようですね。

その他のニュース

ツール

ClaudeはSpotify、Uber Eats、TurboTaxのようなあなたの個人アプリに直接接続しています。AnthropicはClaudeの連携を拡張し、Spotify、Uber Eats、TurboTaxといった消費者向けアプリを含めました。データのプライバシー保護も用意されています。

ClaudeはPhotoshop、Blender、Abletonに直接差し込めるようになりました。新しいクリエイティブ・コネクタにより、Claudeはこれらのアプリ内のデータにアクセスしたり取得したり、画像編集、動画制作、音楽制作、3Dモデリングといった作業を支援するためにアクションを実行したりできます。

MicrosoftがWord、Excel、PowerPointで「vibe working」を提供開始。この機能により、Copilotはサイドバーを通じてその行動をリアルタイムで表示しながら、Officeアプリ全体にわたる複数ステップの編集タスクを直接実行できるようになります。

OpenAI、医療従事者向けChatGPTを発表。米国の認証済みの医療従事者向けに無料で提供されるこのツールには、一般的なワークフローの自動化、引用付きの医学文献レビューの実施、HIPAAに準拠したドキュメント作成の支援といった機能が含まれます。

Mistral AI、VibeとMistral Medium 3.5にリモートエージェントを導入。SWE-Bench Verifiedで77.6%を記録したこの更新により、開発者は長時間のコーディング作業を、分離されたサンドボックス上で非同期に動作するクラウドベースのエージェントへ委譲できるようになります。同時に、エージェントのアクションや意思決定を可視化しながら進められます。

ElevenLabs、ファン向けAI音楽の制作・リミックス・配信サービスとしてElevenMusicを開始。ファンに焦点を当てたプラットフォームとして提案されるElevenMusicは、約4,000人のアーティストのカタログから音楽をストリーミングし、作成し、リミックスできるようにします。さらに、参加するミュージシャンには、AIモデルの学習に自分たちの作品がどのように使われたかに基づいたロイヤルティが支払われます。

Granite 4.1:IBMの8Bモデルは、その4倍のサイズのモデルと競合。異なるデータ混合と厳密な4段階の強化学習プロセスを用いて5つの明確なフェーズで学習されたIBMのGranite 4.1は、予測可能なレイテンシーと信頼性の高いツール呼び出し機能を維持しながら、競争力のあるベンチマーク性能を実現しています。

OpenAIがゴブリンとグレムリンの蔓延について説明。「Nerdy」という性格オプションに紐づいた学習インセンティブの癖により、GPT-5.5が回答の中でランダムにゴブリンやグレムリンに言及するようになりました。これを受けてOpenAIは、ユーザーの質問に直接関連しない限りこれらの生き物に言及しないようAIを妨げる明確な指示を追加しました。

ビジネス

AWS Gravitonとは? アマゾンのカスタムチップがクラウドを支える仕組み

AIチップを巡るまたしても突飛な展開:Meta、アマゾンのAI CPUを数百万台分購入する契約に署名。Metaは、リアルタイム推論やマルチステップのタスク調整といったAIワークロードを処理するために、数百万台のAWS Graviton(ARMベース)CPUを活用する予定だ。推論タスクにGPUを使う方針からの転換を示すとともに、Google CloudやNvidiaとの競争においてアマゾンにとっての勝利となる。

Waymo、フェニックスでOjai車両により完全自動運転へ。現在、サンフランシスコ、ロサンゼルス、フェニックスでドライバーレスの自動運転ライドとして、Waymoが自社で製作したOjai車両をテストしている。同社の新たな車両群には、スライド式ドアと、従来のJaguar i-Pace車両よりも生産コストを抑えられる合理化されたセンサーアレイが搭載されている。

中国、Baiduの障害を受けて自動運転の新規許可を停止。自動運転車の企業は、規制当局が3月に起きた出来事を調査している間、車両台数の拡大や新しい都市での事業開始が認められなくなった。ワンブー(武漢)では、100台以上のBaiduロボタクシーが誤作動を起こしたという。

これからAIのお金の“締め付け”を感じることになる。巨額の資本投資の後に黒字化が求められる圧力を受けて、大手AIラボは無料アクセスを制限し、価格を引き上げ、トークンに基づく価格設定モデルへと移行しつつある。その結果、開発者や企業に対して大幅な新コストの負担を強いるか、より安価な代替案へ乗り換えさせることになる。

Google、現金と計算リソース(compute)でAnthropicに最大400億ドルを投資へ。Googleは当初、評価額3500億ドルで100億ドルを投資する。さらに、Anthropicが業績マイルストーンを達成した場合に追加で300億ドルを拠出する。加えて、AIスタートアップのインフラ需要を支えるために、今後5年間でGoogle Cloudの計算能力として合計5ギガワット分を拠出することも約束する。

DeepMindのデイヴィッド・シルバー、1.1B(11億ドル)を調達。人間のデータなしで学習するAIを作る。シルバーがAlphaZeroのようなゲームで遊ぶプログラムを作るために以前行った取り組みを土台に、同社は、人間が生成したデータではなく試行錯誤によって学習するAIシステムの開発を計画している。

中国、数カ月に及ぶ調査の後にMetaの20億ドル(2B)Manus案件を阻止。説明なしに、中国政府は外国投資の禁止事項を理由として、Manus案件の解消を命じた。一方で、Manusの創業者たちは、中国本土から出国することを妨げる“出国禁止”の対象になっていると報じられている。

Anthropic、OpenAIより高い評価額9,000億ドルで資金調達を行うため投資家と協議。追加の計算能力を確保するための資金を求めて、Anthropicは最新のClaudeモデルを支える方向で動いている。とりわけ、高度なサイバーセキュリティ機能を備えるとして新たに公開されたMythosモデルに注力している。

政策

Anthropicの拒否を受け、Googleが自社AIへのペンタゴンのアクセスを拡大。大量監視や自律型兵器の使用への懸念から同様の条件を拒否したAnthropicとは異なり、Googleは分類ネットワーク向けに、制限のない形でペンタゴンへAIアクセスを提供することに同意した。

連邦議会の委員会が、Cursorの親会社およびAirbnbを中国のAIをめぐって調査。議会の委員会は、より安価な中国製AIモデルの利用が、潜在的なデータ共有や脆弱性を通じて国家安全保障上のリスクにつながり得るかどうかを調べている。

ホワイトハウス、Mythosモデルへのアクセス拡大計画でAnthropicに反対 - WSJ。誤用の可能性によるセキュリティリスクに加え、より多くのユーザーに提供することで、モデルを自ら使うために必要な計算資源への負荷が高まるとの懸念を挙げ、トランプ政権は拡大を阻止した。

ホワイトハウス、公開前にA.I.モデルの審査を検討 - ニューヨーク・タイムズ。想定される大統領令では、AIモデルを一般に公開する前に政府が審査することを求める内容となりうる。サイバーセキュリティ上のリスク、雇用の代替、そして中国との競争への懸念をきっかけにした方針の転換だ。

ホワイトハウス、中国が「産業規模」で米国のAIモデルを盗んでいると非難。中国を拠点とする団体は、偽アカウントや脱獄(ジェイルブレイク)の手法を使って、米国のAIモデルを体系的にコピーし、その能力を大規模に抽出しているとされる。これを受け、政権はより強固な防御と説明責任の措置を求めた。

研究

Anthropicのモデルが、新しいBioMysteryBenchの評価で、人間の科学者をつまずかせたバイオインフォマティクス問題の30%を解決。専門家が執筆した問いを用いた実際の生物学的データセットでテストしたところ、Anthropicの最新モデルは大半のタスクで訓練された科学者と一致し、人間の専門家チームでも突破できなかった問題の30%を解くことができました。

収束進化:異なる言語モデルが似た数の表現をどのように学ぶか。多様な言語モデルやワード埋め込みは、数の表現方法において独立に同一の周期的パターンを発達させますが、意味のある数値推論に実際にこのパターンを活用できるのは、特定のアーキテクチャだけです。

疎(スパース)オートエンコーダの頑健性を理解するために。推論時に言語モデルの層へ疎オートエンコーダを挿入すると、敵対的な最適化に利用可能な表現空間を制約することで、モデル再学習を必要とせずに、ジャイルブレイクの成功率を最大5倍低下させます。

共同ディレクター:エージェント型生成による動画ストーリーテリング。複数のエージェントとマルチアーム・バンディット最適化を用いることで、共同ディレクターは、異なる創造戦略(情報提供型 vs. 変革型、分析型 vs. 説話型)を探索しながら、脚本・映像・音声の生成間で一貫性を維持しつつ、首尾一貫した動画広告を生成します。

Tuna-2:ピクセル埋め込みはマルチモーダル理解と生成において視覚エンコーダに勝る。視覚エンコーダを完全に取り除き、その代わりにトランスフォーマー・デコーダで生のピクセルから視覚表現を直接学習することで、このモデルは、理解タスクと生成タスクの双方において、エンコーダ型の手法と競合するかそれ以上の性能を達成します。

メイヨー・クリニックのAIは、大規模な検証研究で診断の最大3年前に膵臓がんを検出するのに役立つ。REDMODと呼ばれるこのAIモデルは、腫瘍が目に見えるようになる何年も前に、微細な膵臓組織の変化を特定するために、日常的なCTスキャンを分析します。放射線科医が同じCTスキャンをAI支援なしでレビューした場合の27%と比べ、初期がんの73%を検出しました。

条件付きミスアラインメント:一般的な介入が、文脈によるトリガの背後に創発的なミスアラインメントを隠してしまう。3つの一般的な介入――ミスアラインしたデータを良性のデータと混ぜること、事後的なアラインメント訓練、そして接種(イノキュレーション)型のプロンプト――によって、目に見えるミスアラインメントは抑えられる一方で、学習時に与えられる文脈的手がかりによって引き起こされる条件付きミスアラインメントにはモデルが脆弱なまま残ってしまう可能性があります。

圧縮できない知識プローブ:事実能力によってブラックボックスLLMのパラメータ数を推定する。稀な事実に対するモデルの知識をテストすることで、圧縮できない知識プローブ(Incompressible Knowledge Probes:IKP)は、大規模言語モデルのパラメータ数を推定できます。その結果、事実の能力はモデル規模に対して対数線形に増大し、手続き能力が向上しても圧縮できないことが明らかになりました。

大規模言語モデルは潜在蒸留によって探索する。軽量なオンライン学習型の蒸留器が、モデル内部表現内で十分に探索されていない推論パターンを特定し、その後トークン確率の重みを再調整して、最小限の計算オーバーヘッドを維持しつつ、生成を新しい解決戦略へと誘導します。

懸念

AIがウォール街の仕事を奪っている。米国の大手銀行は、バックオフィスからフロントオフィスの業務まで、文書レビューから金融取引の組成(ディール・ストラクチャリング)に至るまでのタスクを自動化できるとして、人工知能を評価しつつ、その一方で何千もの職を削減しています。これは、AIは人間の労働者を置き換えるのではなく強化すると経営陣が以前に主張していたにもかかわらず起きていることです。

10代の男の子がAIチャットボットと交際している――専門家はそれがキャリアを潰し得ると警告。およそ5人に1人の10代の男子は、AIチャットボットを恋愛の相手として使っている同級生を知っており、中には本当の人間関係よりも、制御され結果が伴わない(無害な)やり取りを好む人もいます。専門家は、この傾向が、対人の合図を読み取ること、拒絶への対処、プロのネットワークづくりといった職場のソフトスキルに対する準備不足につながり得ると警告しています。

テイラー・スウィフトが、AIコピーキャット(なりすまし)に対する法的な戦いを強めている。話し声のフレーズや本人の画像について出願された商標は、専門家が言うには、スウィフトの声や容姿に対するAI生成の模倣を抑止するのに役立つ可能性がある法的戦略です。ただし、それが法廷でどれほど効果を発揮するかは不確実です。

分析

A.I.は学生の文章を殺した(そして蘇らせた)――ニューヨーク・タイムズ。この企画は、学生の文章に対するAIの複雑な二面的影響を取り上げます。つまり、広範な学術的不正を可能にする一方で、逆説的にも文章指導に新しいアプローチを生み出し、結果として一部の教育者には教室での取り組み(エンゲージメント)を、文章という技能の側面から再び活気づけているように見える、という点です。

8
1
共有