コーディングAIを、
自社サーバーに取り戻す。
商用グレードのコーディングAIを社内で動かすには、これまで H100 が何基も必要でした。Cohere が公開した North Mini Code 1.0 は、30B 規模でありながら H100 たった 1 基で動く——しかも Apache 2.0。自前運用の損益分岐点が、静かに動きました。
「社内で動かす」には
壁が高すぎた
商用グレードのコーディングAIを自社サーバーで動かそうとすると、これまでは GPT-4 クラスの能力を出すのに H100 を 8 基以上積むのが現実的な下限でした。GitHub Copilot・Cursor・Claude Code といったマネージドサービスを使えば手軽ですが、その代わりにコードと社内データはクラウドへ出ていきます。
とりわけ、データを外に出せない医療・金融・防衛系の企業や、Cursor の月額課金が人数分かさむチームにとっては、「使いたいのに使えない/使うとコストが痛い」という板挟みが続いていました。能力・コスト・データ主権を同時に満たす選択肢が、ほとんど存在しなかったのです。
| マネージドサービス | North Mini Code(自前運用) |
|---|---|
| コード・社内データがクラウドへ | すべて社内で完結 |
| 人数 × 月額が積み上がる | GPU を持てばランニングコスト低め |
| H100 × 8 基以上が下限だった | H100 × 1 基で動作 |
| ライセンスはサービス契約に従う | Apache 2.0 のオープンウェイト |
コーディングAIを、
クラウドから手元へ引き戻す。
30B なのに、
H100 1 基で動く理由
カギは MoE(専門家混合)。総量は 30B でも、一度に動かすのはごく一部だけです。
Cohere が開発者向け初の専用モデル「North Mini Code 1.0」を Apache 2.0 でオープンソース公開しました。トークンごとに約 3B のパラメータだけが有効化される 30B 規模の Mixture-of-Experts コーディングモデルで、巨大な本体を持ちながら一度に動かすのは一部の“専門家”だけ。だからこそ、データセンターを丸ごと借りなくても、単一の NVIDIA H100 で動かせます。
配布も実務向きです。重みは Hugging Face(CohereLabs/North-Mini-Code-1.0)で公開され、メモリをさらに節約できる fp8 版も提供。試すだけなら OpenCode 上の無料トライアル、本番投入なら vLLM main 経由のデプロイに対応しています。
誰に、効くのか
「自前で動かす」価値が一番大きいのは、データを外に出せないチームです。
規制業界のオンプレ
医療・金融・防衛系など、自社データをクラウドに出せない現場。社内ネットワーク内で完結するので、データ主権を保ったまま生成AIを使えます。
課金が痛むチーム
Cursor の月額をチーム人数分払い続けると、利用が増えるほどコストが膨らみます。GPU を持てるなら、ランニングコストを抑えやすい構成です。
既存インフラへ差す
vLLM main に対応しているので、すでに推論基盤を持つチームなら比較的すぐ試せます。新しいスタックを一から組まなくて済みます。
増えたのは「選択肢」
注意したいのは、性能の独立検証はまだ限られているという点です。GPT-4o や Claude Sonnet 級に並ぶかどうかは、ベンチマークの数字ではなく、自分のユースケースで実測して判断するのが現実的です。クラウドAPIを問題なく使える環境なら、わざわざ自前運用に切り替える手間は割に合わないかもしれません。
それでも、これは確かな前進です。商用グレードのコーディングAIを、H100 1 基・Apache 2.0 で社内に置ける——その一手が、これまで選択肢のなかったチームの前に置かれました。「マネージドか、何もないか」だった二択に、第三の道が加わったと捉えるのが正確です。