Cursorの「Composer 2」は中国のAIモデルをこっそり土台にしていた――そしてそれは西側のオープンソースAIに潜むより深い問題を浮き彫りにする

VentureBeat / 2026/3/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market MovesModels & Research

要点

  • Cursorの「Composer 2」コーディングモデルは、立ち上げ時に自社の最先端級インハウスAI研究として打ち出していたにもかかわらず、中国のオープンモデルであるKimi K2.5の上に構築されていると報じられた。
  • 開発者がCursorのAPI通信を傍受して基盤となるモデルを特定し、Kimiモデルの識別子がそのまま表示されていることを見つけた。これがすぐに話題となり拡散した。
  • Cursorは、基盤モデルの出所に関する認知・開示のミスを認め、露呈後に関連する傍受の問題に対処するパッチを適用した。
  • 記事は、より深い問題として「オープンモデルの空白(open-model vacuum)」を挙げている。つまり、西側のAIプロダクト企業は、継続的な事前学習や強化学習に必要な強力な西側のオープン・基盤モデルへのアクセスが限られているという状況だ。
  • Kimi K2.5の技術的な能力(大規模MoE、長いコンテキスト、多機能/マルチモーダル対応、エージェント・スウォーム機能)と、商用化しやすいライセンス体系が、魅力的である主な理由になると強調している。

総額293億ドルのAIコーディングツールが出自(プロベナンス)を暴かれてしまいました。先週CursorComposer 2をローンチした際、同社はそれを「最前線級のコーディング・インテリジェンス」と呼びました。この発表では、同社が単なる、他者の基盤モデルをラップした分岐型の統合開発環境(IDE)ではなく、本格的なAI研究ラボであることの証拠としてモデルを提示していたのです。だが、発表が省いたのは、Composer 2 が、Moonshot AI(中国のスタートアップで、Alibaba、Tencent、HongShan(かつてSequoia Chinaとして知られていた企業)から支援を受けている)によるオープンソースモデルKimi K2.5の上に構築された、という点でした。

XのFynn(@fynnso)という開発者が、数時間のうちにそれを突き止めました。ローカルのデバッグ用プロキシサーバーを立て、CursorのAPI通信をそれ経由でルーティングすることで、Fynnは送信側リクエストを傍受し、モデルIDがそのまま露わになっているのを見つけたのです。accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast。

「だからcomposer 2はRL付きのKimi K2.5そのものだね。少なくともモデルIDは名前を変えるべきだよ。」とFynnは書きました。投稿は260万回を超える閲覧を集めました。

続報でFynnは、Cursorの以前のモデルであるComposer 1.5は、この種のリクエスト傍受をブロックしていたが、Composer 2はそうではなかった、と指摘しました。「たぶん見落としだ」とのことでした。Cursorはすぐにパッチを当てましたが、事実はすでに明らかになっていました。

Cursorの開発教育担当VP、Lee Robinsonは数時間以内にKimiとのつながりを確認し、共同創業者のAman Sangerもそれを認めました。最初から基盤モデルを開示しなかったことはミスだった、というのです。

しかし、ここで本当に重要なのは、ある会社の開示失敗の話ではありません。問題はなぜCursor――そしておそらく他の多くのAIプロダクト企業も――そもそも最初から中国のオープン・モデルに頼ることになったのか、です。

オープンモデルの空白:なぜ欧米企業は中国の基盤モデルに手を伸ばし続けるのか

CursorがKimi K2.5の上に構築することを選んだのは偶然ではありません。このモデルは、1兆(trillion)パラメータのモード・エクスパート(Mixture-of-Experts)アーキテクチャで、アクティブなパラメータは320億(32 billion)、256,000トークンのコンテキストウィンドウを持ち、ネイティブの画像・動画対応があります。さらに、最大100の並列サブエージェントを同時に動かすAgent Swarm能力も備えています。

商用利用を許すよう修正したMITライセンスのもとでリリースされたKimi K2.5は、エージェント型ベンチマークにおいて世界最高クラスのモデルと競合しており、リリース時点のMathVistaでは全モデル中で1位を獲得しました。

AIプロダクト企業が、継続的な事前学習と強化学習のために強力なオープンモデルを必要とする――つまり、基盤モデルを差別化されたプロダクトへ変えるような深いカスタマイズが必要になる――とき、欧米の研究所からの選択肢は、意外なほど薄いのが実情でした。

MetaのLlama 4 ScoutとMaverickは2025年4月に出荷されましたが、いずれも大きく不足しており、待望されたLlama 4 Behemothは無期限延期されています。2026年3月時点でもBehemothには公開リリース予定日がなく、Metaの社内チームが、2兆(2-trillion)パラメータのモデルが出荷に値するだけの十分な性能向上を提供できると確信していない、という報道があります。

GoogleのGemma 3ファミリーは最大270億パラメータで、エッジや単一アクセラレータでの展開には優れているものの、制作向けのコーディング・エージェントを作るための最前線級の基盤とは言えません。Gemma 4はまだ発表されていませんが、リリースが間近ではないか、という憶測を呼んでいます。

そしてOpenAIがあります。2025年8月に、最も目立つアメリカのオープンソース候補とも言えるgpt-ossファミリー(20億および120億パラメータのバリアント)をリリースしました。なぜCursorは、微調整のための基盤モデルが必要なら、このモデルを土台にしなかったのでしょうか?

答えは、最前線級のコーディングに必要な「インテリジェンス密度」にあります。gpt-oss-120bは、西側のオープンソースにとっては偉大な成果であり、o4-miniのような専用モデルに匹敵する推論能力を提供します。しかし本質的には疎(スパース)なモード・エクスパート(MoE)モデルで、1トークンあたりにアクティブになるのは51億パラメータだけです。汎用の推論アシスタントなら、効率面での巧妙な一手になり得ますが、Composer 2のように、256,000トークンのコンテキストウィンドウ全体で構造的一貫性を保たなければならないツールにとっては、たしかに「薄い」と言えるでしょう。対照的にKimi K2.5は、1兆パラメータの巨人であり、どの時点でも32億パラメータをアクティブに保ちます。エージェント型コーディングという高リスクの領域では、単なる知的な“質量(認知的な厚み)”がパフォーマンスを左右し、Cursorは、アクティブパラメータ数におけるKimiの6倍の優位が、「コンテキスト・エクスプロージョン」と呼ばれる、複雑で多段階の自律的なプログラミング課題中に発生する事象の統合に不可欠だと判断したのでしょう。

生のスケール(規模)を超えてもう一つの論点は、構造的なレジリエンス(耐久性)です。OpenAIのオープンウェイトモデルは、エリート開発者の間で「ポストトレーニングが脆い」という、静かな評判を得ています。つまり、すぐに使える状態では非常に優秀だが、Cursorが求めたような、攻撃的で高計算量の強化学習にさらされると、大惨事級の忘却(catastrophic forgetting)が起きやすいモデルだということです。

Cursorは軽いファインチューニングを適用しただけではありません。彼らは学習時の計算コストを「4倍にスケールアップ」して、独自の自己要約ロジックを織り込んだのです。エージェントの安定性と長期ホライズンのタスク向けに特別に構築されたKimi K2.5は、これらの深いアーキテクチャ改修に対して、より耐久性のある「シャーシ(基盤)」を提供しました。これによりCursorは、MIPSアーキテクチャ向けの元祖Doomをコンパイルするといった、競技レベルの問題を解くための専用エージェントを構築できました。つまり、モデルの中核ロジックが、その専用トレーニングの重みで崩れ落ちることなく、解けたのです。

ここには空白があります。そして中国の研究所――Moonshot、DeepSeek、Qwen、その他多数――がそれを積極的に埋めています。DeepSeekのV3とR1は、2025年初頭にコストの一部でフロンティア級の性能を実現し、シリコンバレーにパニックを引き起こしました。AlibabaのQwen3.5ファミリーは、アクティブパラメータが6億から3970億まで、ほぼあらゆるパラメータ規模のモデルを出荷しています。Kimi K2.5は、強力でオープン、かつカスタマイズ可能な基盤を求める企業にとって、まさに最適な「甘い(好適な)ポイント」に位置しています。

Cursorだけがこの立場にあるわけではありません。現在、オープンモデルの上に特殊化したAIアプリケーションを構築しているあらゆるエンタープライズが、同じ計算を突きつけられます。最も能力が高く、そしてより寛容なライセンスで提供されるオープンな基盤は、圧倒的に中国の研究所から生まれているのです。

Cursorが実際に作ったもの――そして、基盤モデルがあなたの思うより重要でない理由

Cursorの取り組みは評価に値します。CursorはKimiに単にUIを載せただけではありません。Lee Robinsonは、Composer 2を作るために使われた総計算量のうち約4分の1はKimiの基盤から来ており、残りの3分の1はCursor自身による継続的な学習から来ていると述べています。同社の技術ブログ記事では、自己要約(self-summarization)と呼ばれる技術が説明されています。これは、エージェント型コーディングで最も難しい問題の一つ――長時間稼働するタスク中に起こるコンテキスト・オーバーフロー――に対処するものです。

AIコーディングエージェントが複雑な、複数ステップにまたがる問題に取り組むとき、どのモデルでも一度にメモリへ保持できる以上に大量のコンテキストを生成します。よくある代替策として、古いコンテキストを切り詰める、または別モデルで要約する、という方法があります。しかしそれではエージェントが重要な情報を失い、連鎖的な誤り(カスケードエラー)を引き起こしてしまいます。Cursorのアプローチは、強化学習の一部として、タスクの途中でモデル自身に作業用メモリを圧縮させるように学習させるものです。Composer 2がコンテキスト上限に近づくと、一旦停止し、すべてをおよそ1,000トークンまで圧縮してから続行します。これらの要約は、全体タスクの完了に役立ったかどうかに基づいて報酬または罰が与えられるため、モデルは何を保持し何を捨てるべきかを数千回の学習実行を通じて学習します。

結果は意味のあるものです。Cursorによれば、自社要約によって、入念に設計されたプロンプトベースのベースラインと比べてコンパクション(圧縮)エラーが50%減少し、使用トークンはその5分の1で済むそうです。デモとしてComposer 2は、ターミナルベンチの問題――MIPSプロセッサ向けのアーキテクチャで元のDoomゲームをコンパイルする――を170ターンで解きました。タスク全体を通じて、100,000トークン超を繰り返し自社要約しながら進めたのです。いくつかのフロンティアモデルではこれを完了できません。CursorBenchではComposer 2のスコアは61.3で、Composer 1.5は44.2、Terminal-Bench 2.0では61.7、SWE-bench Multilingualでは73.7に到達しています。

この話が報じられた後、Moonshot AI自体も好意的に反応し、XでKimiが土台を提供してくれたことを誇りに思うと投稿しました。また、CursorはFireworks AIというモデルホスティング企業との認可された商業パートナーシップを通じて当該モデルにアクセスしていたことを確認しました。盗まれたものはありません。利用は商業的にライセンスされていました。

帰属以上の問題:沈黙が提起するライセンスとガバナンスの疑問

Cursor共同創業者のAman Sangerは、そうした記載の欠落を認め、「元のブログ投稿でKimiのベースに言及しなかったのは見落としだった」と述べました。その沈黙の理由は、推測するのは難しくありません。Cursorは、統合レイヤーではなくAI研究企業であるという前提で、時価総額が約300億ドルにまで評価されています。そしてKimi K2.5は、Alibabaの支援を受けた中国企業によって構築されたものです――米中のAI関係が緊張している局面で、また政府やエンタープライズの顧客がサプライチェーンの出どころ(起源)をますます重視するようになっている中では、慎重に扱うべき出どころです。

本当の教訓はもっと広いところにあります。業界全体が他社の土台の上に築かれています。OpenAIのモデルは、何十年にもわたる学術研究と、インターネット規模のデータに基づいて学習されています。MetaのLlamaは、常に十分には開示されていないデータで学習されています。すべてのモデルは、先行する作業の層の上に存在します。問題は、企業がそれについて何と言っているかです。そして今のインセンティブ構造では、とりわけ土台が中国由来である場合、そのつながりを曖昧にすることが報われやすくなっています。

AIコーディングツールやエージェントプラットフォームを評価するIT意思決定者にとって、このエピソードは実務的な問いを浮かび上がらせます。あなたのAIベンダーの製品の内部で何が使われているかを把握できていますか?コンプライアンス、セキュリティ、サプライチェーン要件にとって、それは重要ですか?そしてベンダーは、自社の土台となる基盤モデルに関するライセンス上の義務を満たしているのでしょうか。

西側のオープンモデルのギャップは埋まり始めている――ただしゆっくりと

モデルの出どころ(provenance)を重視する企業にとって良いニュースは、西側のオープンモデルが、かなり競争力を高めていくように見えることです。NVIDIAは攻勢の強いリリースペースを続けています。Nemotron 3 Superは3月11日にリリースされたもので、1200億パラメータのハイブリッドMamba-Transformerモデルで、うちアクティブは120億パラメータ、コンテキストウィンドウは100万トークンです。前モデルに比べて最大5倍のスループットを実現しています。独自の潜在モーダル(latent mixture-of-experts)アーキテクチャを採用しており、Blackwellアーキテクチャ上でNVIDIAのNVFP4形式で事前学習されています。Perplexity、CodeRabbit、Factory、Greptileなどの企業は、すでにこれを自社のAIエージェントへ統合し始めています。

数日後、NVIDIAはNemotron-Cascade 2を投入しました。これは300億パラメータのMoEモデルで、アクティブはわずか30億パラメータです。そして、数学、コード推論、アライメント、指示追従のベンチマークにおいて、Qwen 3.5-35Bと、より大きいNemotron 3 Superの両方を上回る性能を示しています。Cascade 2は2025年の国際数学オリンピック(IMO)、国際情報オリンピック、ICPCワールドファイナルで金メダル級の成績を達成しました――DeepSeek-V3.2-Specialeに続き、それを実現したのはオープンウェイトモデルとしては2番目にあたります。これら2つのモデルは、許容的なライセンスのもとで、完全にオープンな重み、学習データセット、強化学習のレシピとともに提供されています。まさに、CursorのKimiエピソードで「欠けている」と指摘された種類の透明性です。

ITリーダーが注目すべきこと:出どころの問題は消えない

Cursor-Kimiのエピソードは、繰り返し起きるパターンの予告編です。AIプロダクト企業が、オープンな基盤モデルの上に、追加の事前学習、強化学習、自己要約のような新しい手法を重ねて差別化されたアプリケーションを構築するようになるにつれ、スタックの底にある基盤がどれかという問いは、単なる技術的な好みではなく、エンタープライズのガバナンスの問題になります。

NVIDIAのNemotronファミリーと、見込まれるGemma 4は、西側のオープンモデルのギャップを埋めるための最も有力な近未来の候補です。Nemotron 3 Superのハイブリッドアーキテクチャと100万トークンのコンテキストウィンドウは、CursorがKimiで扱ったのと同様のエージェント型コーディングのユースケースに直接関連します。Cascade 2の驚異的な知能密度――アクティブ30億パラメータという少ない規模で金メダル級の競技性能を示したこと――は、高度なRL手法で学習されたより小型で高度に最適化されたモデルが、オープンモデル領域を支配してきた巨大な中国製基盤モデルの代替になっていく可能性を示唆しています。

ただし現時点では、アメリカのAIプロダクトと中国のモデル基盤のあいだの線引きは、地政学的な物語が示唆するほどきれいではありません。世界で最もよく使われるコーディングツールの一つはAlibabaが後ろ盾となったモデルで動いており、そもそもそれを可能にしたライセンスの帰属要件を当初から満たしていなかったかもしれません。Cursorは次回、そのベースモデルを開示すると述べています。より興味深いのは、次回、開示するに足る信頼できる西側の代替が存在するかどうかです。