ChatGPTが2022年後半に登場して以来、オープンソースAIモデルのバトンは長年にわたり複数の企業の間で受け渡されてきました。MetaのLlamaファミリーから、Qwenやz.aiのような中国の研究室までです。しかし最近、中国企業は一部で米国のCursorやNvidiaのようなラボが中国モデルの独自バリアントをリリースしているにもかかわらず、再び専有(プロプライエタリ)モデルへと方針転換を始めています。これにより、今後この技術の系譜(ブランチ)を生み出すのは誰なのか、という疑問が残っています。
その答えの一つが:Arceeです。サンフランシスコ拠点の研究室で、今週AI Trinity-Large-Thinkingをリリースした—妥協のないオープンなApache 2.0ライセンスのもとで公開された、3990億(399-billion)パラメータのテキストのみの推論モデルです。これにより、インディー開発者から大企業まで、誰でも完全なカスタマイズと商用利用が可能になります。
今回のリリースは、AIコード共有コミュニティのHugging Faceに新たな重み一式を追加した以上の意味があります。2025年に向けてますますクローズドまたは制限が強まる最前線モデルに対し、「American Open Weights(米国のオープン・ウェイト)」が主権(ソブリン)な代替を提供できる、という戦略的賭けです。
この動きはまさに、企業が重要インフラで中国ベースのアーキテクチャに依存することへの不快感を強めているのと同時期に到来しており、Arceeが埋めようとしている国内のチャンピオンへの需要が生まれています。
Hugging Faceの共同創業者兼CEOであるClément Delangueは、X上でVentureBeatに直接メッセージを送る形でこう述べました:「米国の強みは、常にスタートアップにあります。だから、彼らこそがオープンソースAIでリードすべき相手なのかもしれない。Arceeは、それが可能だと示しています!」
30人規模のフロンティア・ラボの誕生
Trinityリリースの重みを理解するには、それを作り上げたラボを理解する必要があります。サンフランシスコに拠点を置くArcee AIは、たった30人のリーンなチームです。
OpenAIやGoogleのような競合が数千人のエンジニアと数十億ドル規模の計算予算で運営しているのに対し、ArceeはCTOのLucas Atkinsが「制約によるエンジニアリング(engineering through constraint)」と呼ぶ方針によって自らを定義してきました。
同社はまず2024年に注目を集めました。Emergence Capitalが主導した2,400万ドルのSeries Aを獲得し、総資金は5,000万ドル弱にまで増えました。2026年の初め、チームは大きな賭けに出ます。Trinity Largeの単一の33日間のトレーニング実行に対して、2,000万ドル—総資金のほぼ半分—を投じることを決めたのです。
2,048枚のNVIDIA B300 Blackwell GPUからなるクラスタを活用し、これは前世代のHopperに比べて2倍の速度を提供していました。Arceeは、「開発者が本当に自分たちで所有できるフロンティアモデルを必要としている」という信念に基づき、同社の将来を賭けました。
この「会社を支える」賭けは、資本効率に関する見事な実例でした。小さくて集中したチームでも、完全なパイプラインを立ち上げ、果てしない予備資金なしにトレーニングを安定化できることを証明したのです。
極端なアーキテクチャ制約によるエンジニアリング
Trinity-Large-Thinkingは、注意機構(attention mechanism)の極端なスパース性で注目に値します。モデル全体には4,000億(400 billion)総パラメータが収められている一方で、Mixture-of-Experts(MoE)アーキテクチャにより、任意のトークンに対してアクティブになるのは1.56%、つまり130億(13 billion)パラメータだけです。
これにより、大規模システムが持つ深い知識を備えつつ、はるかに小さなモデルのような推論速度と運用効率を維持できます。同一のハードウェア上で、同業他社に比べておよそ2〜3倍速く動作します。このようなスパースなモデルの学習は、重大な安定性の課題を伴いました。
いくつかのエキスパートが「勝者」になり、他が未学習の「死んだ重み(dead weight)」のままになることを防ぐため、ArceeはSMEBU(Soft-clamped Momentum Expert Bias Updates)を開発しました。
この仕組みにより、エキスパートは専門化され、一般的なウェブのコーパス全体に対して均等にルーティングされます。さらにアーキテクチャには、3:1の比率でローカルとグローバルのスライディングウィンドウ注意(sliding window attention)レイヤーを交互に用いるハイブリッド手法が組み込まれており、長い文脈のシナリオでも性能を維持します。
データ・カリキュラムと合成推論
Arceeは同業のスタートアップであるDatologyAIと提携し、10兆(10 trillion)を超える厳選トークンを対象としたカリキュラムを提供してもらいました。しかし、フルスケールモデルの学習コーパスは20兆トークンへと拡張され、厳選されたWebデータと高品質の合成データの間で均等に分割されました。
単に小型モデルが大きいモデルの真似をするだけの、典型的な模倣ベースの合成データとは異なり、DatologyAIは合成的に生のWebテキストを書き換える手法を用いました。たとえば、Wikipediaの記事やブログなどを再構成して、情報を凝縮したのです。
このプロセスによって、モデルは厳密なトークン文字列を単に暗記するのではなく、概念や情報について推論することを学べるようになりました。
規制への適合を確実にするため、著作権のある書籍や、ライセンスが明確でない資料を除外することには多大な努力が投じられました。これにより、主流のLLMに伴う知的財産リスクを警戒する企業顧客を惹きつけています。
この「データを起点にする」アプローチにより、モデルはクリーンにスケールしつつ、数学やマルチステップのエージェントによるツール使用といった複雑なタスクでの性能が大きく向上しました。
陽気なチャットボットから推論エージェントへの転換
この公式リリースの決定的な特徴は、標準的な「指示(instruct)」モデルから「推論(reasoning)」モデルへの移行です。
応答を生成する前に「thinking(考える)」フェーズを実装することで—以前のTrinity-Miniに見られる内部ループに似た形で—Arceeは、1月に出した同社の「Preview(プレビュー)」リリースに対する主要な批判に対処しました。
プレビュー・モデルの初期ユーザーは、複雑な環境でのマルチステップ指示がうまくいかないことがあるほか、エージェント型のタスクでは「物足りない(underwhelming)」可能性があると指摘していました。
今回の「Thinking(考える)」アップデートは、そのギャップを実質的に埋めます。Arceeが「long-horizon agents(長期ホライゾンのエージェント)」と呼ぶ、複数回にわたるツール呼び出しの間も整合性を保ちつつ、「だらける(sloppy)」ことなく動作できるエージェントを可能にします。
この推論プロセスにより、文脈の整合性がより良くなり、制約下でも指示への追従がよりクリーンになります。これは、すでに監査重視の業界で、透明な「thought-to-answer(考えから答えへ)」のトレースを提供するために使われている、Trinityの32Bパラメータ派生であるMaestro Reasoningにも直接的な影響があります。
目標は、「陽気で騒がしい(yappy)」、あるいは非効率なチャットボットを超えて、信頼でき、安価で、高品質なエージェントを実現し、長時間にわたるループでも安定性を保つことでした。
地政学と「米国のオープン・ウェイト」の根拠
ArceeがApache 2.0へのコミットメントを示したことの重要性は、主要競合がオープン・ウェイトのフロンティアから後退していることによってさらに増幅されています。
2025年を通じて、AlibabaのQwenやz.ai(Zhupaiとしても知られる)のような中国の研究ラボが、高効率MoEアーキテクチャの主導権を握っていました。
しかし2026年に入るにつれ、そうしたラボは専有のエンタープライズ・プラットフォームや、特化したサブスクリプションへとシフトし始めており、コミュニティ主導の純粋な成長からの移行を示しています。
AlibabaのQwenラボから主要な技術リードが離れるなど、かつて豊富な成果を生んでいたこれらのチームが分裂したことで、オープン・ウェイト市場の上位(ハイエンド)側には空白が生まれました。米国では、この動きは独自の危機にも直面しています。
MetaのLlama部門は、とりわけ2025年4月のLlama 4の受け止めがまちまちだったことを受けて、フロンティア領域から後退しました。そこでは、品質面の問題やベンチマークの操作に関する報道がありました。
Llama 3時代の優位性に頼っていた開発者にとっては、現在の400B+のオープンモデルが存在しないことが差し迫った問題となり、それをArceeが立ち上がって埋める形になりました。
ベンチマークとArceeのTrinity-Large-Thinkingは、他の米国のフロンティア向けオープンソースAIモデル提供とどう比べられるか
エージェント固有の評価におけるTrinity-Large-Thinkingの性能は、これを正真正銘のフロンティア候補として位置づけます。PinchBenchでは、自律的なエージェント型タスクにおけるモデル能力を評価するための重要な指標で、Trinityは91.9というスコアを達成し、専有市場のリーダーであるClaude Opus 4.6(93.3)にわずかに及ばない位置に付けました。
この競争力はIFBenchにも反映されています。Trinityのスコアが52.3で、Opus 4.6の53.1とほぼデッドヒートであることから、「思考(Thinking)」を重視するアップデートによって、モデルのそれ以前のプレビュー段階で課題となっていた指示追従のハードルが、うまく克服されたことを示しています。
モデルのより広範な技術的推論能力もまた、現在のオープンソース市場における上位水準に位置づけます。 AIME25で96.3を記録し、ハイティアのKimi-K2.5に並び、さらにGLM-5(93.3)やMiniMax-M2.7(80.0)のような他の主要競合を上回りました。
SWE-bench Verifiedのようなハイエンドのコーディングベンチマークでは依然として、トップクラスのクローズドソースモデルがリードしており(Trinityは63.2で、Opus 4.6は75.6)、しかしトークンあたりのコストにおける大きな差は、これらの能力を本番規模で導入したい企業にとって、Trinityがより現実的な主権型(ソブリン)インフラ層であることを際立たせています。
米国の他のオープンソース・フロンティアモデル提供に目を向けると、OpenAIのgpt-ossは最大で1,200億パラメータですが、(Gemma 4が今週リリースされたばかりです)であるGoogleのGemma、それにIBMのGraniteファミリーも言及する価値があります。とはいえ、より低いベンチマークであることは事実です。NvidiaのNemotronファミリーも注目に値しますが、これはQwenのバリアントを微調整し、ポストトレーニングしたものです。
ベンチマーク | Arcee Trinity-Large | gpt-oss-120B(High) | IBM Granite 4.0 | Google Gemma 4 |
GPQA-D | 76.3% | 80.1% | 74.8% | 84.3% |
Tau2-Airline | 88.0% | 65.8%* | 68.3% | 76.9% |
PinchBench | 91.9% | 69.0%(IFBench) | 89.1% | 93.3% |
AIME25 | 96.3% | 97.9% | 88.5% | 89.2% |
MMLU-Pro | 83.4% | 90.0%(MMLU) | 81.2% | 85.2% |
では、企業はこうした数々の選択肢の中で、どのように選べばよいのでしょうか?
Arcee Trinity-Large-Thinkingは、自律的なエージェントを構築する組織にとって最有力の選択肢です。疎な400Bアーキテクチャは、多段階の論理、複雑な数学、長期的なツール活用における「思考(thinking)」を得意とします。パラメータのほんの一部だけを有効化することで、GPT-4oレベルの計画(プランニング)能力が必要な開発者に対し、コスト効率の良いオープンソースの枠組みの中で、高速な推論エンジンを提供します。
一方で、gpt-oss-120Bは、高い推論性能を必要としつつも、運用コストの低さやデプロイの柔軟性を優先する企業にとっての最適な中間解です。
前方パスごとに有効化するパラメータが5.1Bにとどまるため、単一のH100 GPUのような限られたハードウェア上で動かさなければならない競技用のコード生成や高度な数理モデリングといった技術的ワークロードに、独自に適しています。
推論に使う努力量を調整できる点――「Low」「Medium」「High」のモードを提供――により、異なるタスクごとにレイテンシと精度のバランスを動的に取らなければならない本番環境で、最適な適合先になります。
より幅広く、高スループットなアプリケーションに関しては、Google Gemma 4とIBM Granite 4.0が主要なバックボーンとして機能します。Gemma 4は、一般知識と科学的正確性における「知能密度」が最も高く、研究開発(R&D)や高速なチャット・インターフェース向けに最も汎用性の高い選択肢です。
一方で、IBM Granite 4.0は「一日中」動き続ける企業のワークロードに向けて設計されており、大規模な文書処理におけるコンテキストのボトルネックを解消するハイブリッド・アーキテクチャを活用します。法令順守やハードウェア効率を重視する企業にとって、Graniteは大規模なRAG(検索拡張生成)および文書分析のための最も信頼できる基盤です。
規制産業にとっての機能としての「所有」
こうした環境の中で、ArceeがApache 2.0ライセンスを選んだのは、意図的な差別化の行為です。競合の一部が用いている制限の強いコミュニティライセンスとは異なり、Apache 2.0なら、汎用チャットモデルにありがちな「ブラックボックス」的なバイアスなしに、企業が自社のインテリジェンス・スタックを本当に所有できます。
「開発者や企業は、検査し、ポストトレーニングし、ホストし、蒸留し、そして所有できるモデルが必要です」と、Lucas Atkinsはローンチ発表の中で述べています。
この「所有」は、小さなモデルを学習させる際の「苦い教訓」において重要です。効率的な学生モデルを構築するために必要となる高品質な合成データやログitを作るには、通常はまず巨大なフロンティアモデルを学習させる必要があるのです。
さらにArceeは、Trinity-Large-TrueBaseという、生の10兆トークンのチェックポイントをリリースしました。TrueBaseは、指示チューニングや強化学習が適用される前の、基盤となるインテリジェンスをめずらしく「損なわれていない」形で見ることができます。金融や国防のように強く規制された産業の研究者にとって、TrueBaseは、クリーンな状態から始めて信頼できる監査とカスタムアラインメントを行うことを可能にします。
コミュニティの評価と、蒸留(ディスティレーション)の未来
開発者コミュニティからの反応は概ね好意的であり、よりオープンな重み(weights)や、米国製のモデルへの需要が反映されています。
X上では研究者たちが混乱を強調し、このサイズのモデルが「信じられないほど安い」価格で手に入ることは、エージェント分野にとって大きな恩恵になるだろうと述べました。
オープンAIモデルの推論(inference)WebサイトOpenRouter上では、Trinity-Large-Previewが米国で最も使用されるオープンモデルとして地位を確立し、2026年3月1日のようなピーク日には80.6億トークン以上を提供しました。
PinchBenchにおいてClaude Opus 4.6に対してTrinity-Large-Thinkingがどれだけ近いか――91.9対93.3――は、コストと比較すると特に印象的です。Trinityは出力トークン100万あたり$0.90で、出力トークン100万あたり$25かかるOpus 4.6に比べて、約96%も安価です。
Arceeの戦略は現在、これらの事前学習および事後学習の学びを、スタックのより下層へと持ち戻すことに焦点を当てています。Trinity Largeに投じられた作業の多くは、これからMiniおよびNanoモデルへと流れ込み、フロンティア級の推論を蒸留することで、同社のコンパクトなラインを刷新します。
世界のラボが専有的なロックインへと舵を切る中で、ArceeはTrinityを、開発者が長期のエージェント型ワークフローのために、ついに自ら制御し適応できる主権型インフラ層として位置づけています。




