データ・ハックと米中AI競争

ChinaTalk / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market Moves

原文を読む →

共有:

要点

この記事は、「データ・ハック」がモデルの性能や競争力に対する影響を通じて、米中のAI競争における中核的なレバーになりつつあると論じている。そこでは、データの改ざんや優位性の確保によって影響が生まれる。
競争の力学は、アルゴリズム上のブレークスルーだけではなく、より質の高い、よりアクセスしやすい、あるいはより適切な出所に基づく学習・ラベリングデータを誰が握っているかによって、ますます左右されるものとして位置づけられている。
データの来歴（プロベナンス）やアクセスをめぐる従来の障壁やセーフガードは、敵対的、あるいは戦略的なデータ獲得の手法が進化していくなかでは不十分になり得ると示唆している。
この記事は、将来のAI上の優位は、データ悪用への耐性に加え、より強固なデータ・ガバナンス、監査、検証の実践に依存するとほのめかしている。

データハックと米中AIレース

Project 2027

2026年4月14日

Trent Kannegieter はイェール・ロー・スクールのJD候補者です。以前は、Fortune 100の企業に買収された、機械学習オペレーションおよび自律性スタートアップであるSparkAIのチーフ・オブ・スタッフでした。

Mercor は今日のワシントンD.C.ではあまり話題に上りませんが、それが表す専門データのエコシステムは、AI能力の成長と米国のフロンティアAIにおける優位性を左右する中核的な要因です。先週の Mercorでのハックとデータ侵害、およびそれが示すより広範なセキュリティ上の課題は、技術競争の将来を形作る可能性があります。また、当該分野で急速に失われつつある米国の2つの資産を理解する鍵になるかもしれません。すなわち、専門的なデータの堀（モート）と、そもそも差別化可能なフロンティアそのものです。

Mercorとは？

Mercorは 10Bnドル規模のスタートアップで、専門の人材エキスパートによるデータセットを構築しています。Mercorのような企業、 Surge AI、そして Turing1は、AIの能力が伸びるうえで重要な存在であり、新しい領域で高いパフォーマンスを研究所が引き出せるよう支えています。これらのデータセットは、基盤モデルのラボが大半のウェブをスクレイピングしてから多くの学習実行が行われた後でも、モデルの性能向上が続いている大きな理由のひとつです。

モデルの良さはデータ次第です。しかし、今日のAI開発における最大の課題の1つは、新しく、かつ十分に文書化されていない分野をモデルにとって「読みやすい」状態にする方法を見つけることです。現在の最前線モデルは驚くべき能力を達成していますが、頑健な学習データが欠けている領域で機能するよう求められると、「一般化」された推論がいまだに難しいのです。2 したがって、能力の成長を後押しする重要な要因の1つ、特に、モデルが高い価値のあるタスクを完了するのに不可欠なホワイトカラー業務のワークフロー自動化のような領域では、専門家領域における専門的なデータセットの収集とキュレーションが重要になります。たとえば、放射線科（レントゲン画像）モデルは大量のX線画像コーパスで学習します。3

Mercorは、これらの作業を特に採用プラットフォームを通じて実施しています。4 Mercorがこのプラットフォームの人材基盤を構築する過程で、バイオテクノロジー研究と介入放射線医学から企業法務、そして国際ビジネス開発まで、印象的な専門領域の集積を蓄えてきました。このデータは研究所にとって非常に価値があります。データがモデルによる新たな洞察の生成に役立つと、まったく新しいプロダクション領域が開かれるのです。5

Mercorの製品に対する需要は、AIの資金調達の“加速装置”とともに成長してきました。基盤モデルのラボが、ますます大規模になり、ますます多くのユーザーや、さらに要求水準の高いベンチマークに到達する学習実行を完了するために、より多くの資金を調達するにつれ、専門データに対する需要と利用可能な資本も同様に増えていきます。6 ラボは専門データに非常に多額の費用を投じます。 The Information によれば、Mercorの年間換算売上高が、最近10億ドルに到達したとのことでした。

DCがこれまで聞いたことのない最も重要なハック

しかし最近、Mercor がハッキングされました。3月30日（月）、Lapsus$ というグループがMercor のデータ 4TB を盗んだと主張しました。報道によれば、この侵害には、候補者プロフィールや個人を特定できる情報（PII）から、専門家によるビデオ面接、ソースコード、その他の専有情報や秘密まで、あらゆるものが含まれていたとされています。7

Mercor の一連のハッキングは、専門家データ企業が、データへの莫大な研究開発投資を複製または盗用するうえでの弱点になり得ることを示唆しています。突如として、専有データに基づいて構築された企業の重要なデータが、非独占利用で 100万ドルという価格で購入できる状態になったとされています。このような資産に対して、どれほどお得な取引なのかを規模感で言えば、Mercor は請負業者に 150万ドル超を毎日支払って構築している8 Mercor のプロジェクト期間は大きく幅がありますが、もし今回のハッキングに多数のプロジェクトに由来するデータが含まれているなら、請負費用だけでも流出データセットの価格を何倍も上回る可能性があります。

また、Mercor が研究機関と非常に緊密に連携していることは、基盤モデル・ラボが製品開発をどのように管理しているかについての秘密が、このハッキングによって露呈したのではないかという懸念も引き起こします。ハッキング後数日で Meta は、同様の懸念があるとして Mercor との契約を停止したと報じられました。

私たちは、このハッキングで具体的にどのデータが流出したのかを特定できていません。（たとえば、専門家に関するデータや、重要性の低い手続き上の懸念とは別に、どの程度の注釈付きデータやプロセス上の秘密が露呈したのかは不明です。）しかし、このハッキングによる具体的な余波は、「こうした種類のハッキングが実現可能であること」を示すことほどには重大でない可能性があります。最も重大な懸念は、将来の専門家データのスタートアップに対するハッキング、そしてそれがもたらす脅威です。

こうした懸念は、今週 Anthropic が「新しい Claude Mythos Preview モデル」のリリースを、サイバー攻撃を行う計り知れない潜在力があるためとして差し控えると発表したことを受けて、特に切迫しています。たとえ Anthropic が今日そのモデルを公開しないとしても、他の緊密な追随者が同じだけ慎重になるとは限りません。この展開は、高度なサイバー攻撃能力が、急速に到来していることへの懸念を高めます。

急速に追随する者たちが一気に飛びつくことを想定せよ

ファストフォロワーの基盤モデル・ビルダー—とりわけ中国の企業—は、間違いなく、この非常に価値の高いデータへのアクセスを試みるでしょう。（今回のこのハッキングから得たものにせよ、将来のあらゆる攻撃から得たものにせよ。）なぜでしょうか。こうした企業の技術的な成熟度が高いことに加えて、彼らは最近、より物議を醸すような作戦もはるかに多く実行してきました。たとえばAnthropic が最近公表した、Moonshot AI、Minimax、DeepSeek による Claude モデルの大量蒸留に関する主張を見てください。OpenAI も同様の懸念を提起しており、米国の CCP（中国共産党）に関する下院の選定委員会宛ての書簡の中でも言及しています。もちろん、データのキュレーション戦略は蒸留攻撃にとどまりません。9しかし、これらの事例は、中国企業が主導的な米国のラボとの差を縮めるために、どれほど創意工夫を凝らした手法を喜んで用いるかを示しています。彼らは、たとえ一応はクローズドソースのモデルであっても、それを自分たちのものにし、しかも多くの場合オープンソースの代替案として開発することに、前向きであることを示してきました。合成データセットを作るために Anthropic や OpenAI の蒸留防御に対抗していくのと並行して、これらのデータセットを実際にいじってみる価値も、きっとあるはずです。

重要なポイントは2つ

強力な輸出管理の必要性がより高まる。

ある防衛壁（モート）が脅かされると、別の防衛壁を守る重要性が増します。もしモデルを 蒸留して、重要な専門家データを盗むことができるのなら、計算資源へのアクセスは、より一層、長期的な差別化要因として重要になります。

国家の利益に資する専門家の人的データを扱うスタートアップに対する、セキュリティのより高い優先度。

この事件は、戦略的に重要なAI企業のサイバーセキュリティを強化するために、より積極的な国としての関与が必要であることを裏づけるものです。このようなサイバー攻撃は、イノベーションへの意欲をそいでしまう可能性があります。つまり、ハッキングによって支払いをしない企業がただ乗りできるなら、質の高い、特注のデータセットに投資する理由は何でしょうか。研究を支える拠点の稼働に役立つ、国益に資する重要資産としてのAIスタートアップを防御する必要性は、連邦による安全保障支援の正当化につながります。（別の言い方をすれば、基盤モデル・ラボを守るこうした要請は、専門人材によるデータ企業のような主要なパートナーにも拡大されるべきかもしれません。）

このような枠組みであれば、これらの国益に資する主体が、他にもさまざまなこととして、固有の脅威インテリジェンス、テスト、そして、州が持つ固有の権限、規模、可視性に基づいたインシデント対応と支援を提供するために、既存の州のインフラを活用できるでしょう。この種のサービスにはすでに前例があります。たとえば、NSAは、国防省の ~~War~~ War に取り組む民間委託企業に対してサイバーセキュリティ・サービスを提供しています。同様に、 FBIのBusiness Alliance Initiativeは、機微情報の脆弱性評価、特定の脅威に関する情報、そしてさまざまな潜入シナリオに関する助言という形で、民間企業を支援します。10

輸出管理と取り締まりが11が、米国のAI優位性を維持するうえで鍵になるのだとすれば、メルコアのような企業が、重要な専門領域における最先端を押し進めるデータセットの開発を続けるよう促せる、州のセキュリティ上の強みを活用することが、米国のAIイノベーションと能力の成長を継続するうえで重要です。

新しい投稿を受け取り、私たちの活動を支援するには、購読してください！

購読する

この分野の他の競合には Handshake、 micro1、およびScale AIの一部（たとえば Expert Match）があります。DCでよく知られたデータラベリングの老舗企業、たとえば Labelbox や Scale AIの中核事業はラベル付きデータを提供していますが、メルコアやその他の企業のような、特定分野の専門家によるデータに必ずしも特化しているとは限りません。メルコアの中核的な価値提案は、（1）エリート人材をプラットフォームに採用すること、そして（2）複雑なプロセスを、そうしたスタッフの協力を得てモデル学習に役立つデータへと変換するのを助けるワークフローを構築すること、により大きく依存しています。メルコアの成功の一部は、これら2つの難しいタスクをどちらも非常に高い水準でやり遂げ、最前線のラボの満足を得られるチームの力によるところが大きいのです。

この主張のより深い掘り下げについては Song, Han, and Goodman (2026) が、LLMの「推論の失敗（reasoning failures）」に関する研究の有用な概説を提供しています。とりわけ第4.2節では、堅牢な学習データがない状況で、LLMの性能と推論が苦戦する多くの方法が扱われています。

たとえば CheXpertデータセットは、スタンフォード・ヘルスケアの検査から得られた20万件超の胸部X線で構成されています。

メルコアは自社を「AI採用プラットフォーム」として位置づけています。

これらのエコシステムへの注目が、技術エコシステムの封じ込めを破ってしまいました。たとえば、過去1年の間に、 Bloombergの法務・金融コラムニストであるMatt Levine が、オープンAIが主導する取り組みを含む、さまざまなイニシアチブについて、投資銀行業務を自動化するためのモデルを訓練する手助けをする元投資銀行家を採用しようとしていることを取り上げました。Levineは、今日のAIエコシステムにおいて最も収益性の高い分野の一つに偶然足を踏み入れていたのです。

もちろん、このデータを売るだけでは十分ではありません。メルコアや他の主要企業には、同じ領域で他社が失敗しても成功できる、他にも何らかの属性があるのだろうと考えられます。

独立したサイバー犯罪集団によるこの公表されたハッキングは、同社に対する侵害がこれだけでない可能性もあります。他にも、より高度なハッカーがこのデータへのアクセスを試みているかもしれません。もちろん、この点は部外者による推測です。

この一文では、請負業者のPII（社会保障番号を含む）の漏えいに関するプライバシー上の懸念と、これに関連するすでに提起されつつある集団訴訟はひとまず措く。なお、この判断は、この文章を米中の技術競争の重要な詳細に焦点を当てることを意図している。もちろん、だからといって、こうした懸念がメルコルのエコシステムにいる人々やメルコル自身にとって重要ではない、という意味ではない。）

たとえば、中国には、特定分野のデータセットをキュレーションすることに専念する自前の企業がある。（SenseTime、Baidu、Tencentのような大手の両方の系統、ならびにDataocean AIやDatatangのようなスタートアップ。）

これらの特定の当局についてのご支援に対して Maggie Baughmanに謝意を表します。

たとえば、チップの密輸を防ぐための情報提供者や取り締まり要員のネットワークを構築すること。

返却形式: {"translated": "翻訳されたHTML"}