すべての GPU クラスターにはアイドリング時間が存在します。トレーニングジョブは終了し、ワークロードは移り変わり、電力と冷却費用が引き続き発生する中、ハードウェアは暗闇のまま待機します。neocloud の運用者にとって、これらの空きサイクルは失われたマージンです。
当然の回避策はスポット GPU 市場――需要のある人に余剰容量を貸し出すことです。しかしスポットインスタンスでは、レンタリングを行うのは依然としてクラウドベンダーであり、その容量を購入するエンジニアは、推論スタックが付随しない原始的な計算資源に対して支払いを続けます。
FriendliAI の解は異なるものです。未使用のハードウェア上で直接推論を実行し、トークンのスループットを最適化して、運用者と収益を分配します。FriendliAI は、継続的バッチ処理に関する論文で vLLM の基盤となった研究者、Chun Byung-Gon 氏によって設立されました。その研究は、現在の本番デプロイで広く使われているオープンソース推論エンジン vLLM の基盤を築きました。
Chun はソウル国立大学の教授として、機械学習モデルを大規模に効率的に実行する方法を長年研究してきました。その研究から生まれた論文は Orca と呼ばれ、継続的バッチ処理を導入しました。この手法は、固定バッチを埋めるのを待ってから実行するのではなく、推論リクエストを動的に処理します。現在では産業界の標準となっており、vLLM の中核メカニズムです。
今週、FriendliAI は InferenceSense という新しいプラットフォームを立ち上げます。出版社が Google AdSense を使って売れ残りの広告在庫を収益化するのと同様に、neocloud の運用者は InferenceSense を使って未使用の GPU サイクルを有料の AI 推論ワークロードで埋め、トークン収益の一部を得ることができます。運用者自身のジョブは常に優先されます — スケジューラが GPU を取り戻す瞬間、InferenceSense は推論ワークロードを中断して GPU を返します。
「私たちが提供しているのは、GPU を idle にするのではなく、推論を走らせることで、それらの idle GPU を収益化できるようにすることです」と Chun 氏は VentureBeat に語った。
ソウル国立大学の研究室が vLLM のエンジンをどう作ったか
Chun は 2021 年に FriendliAI を設立しました。業界の大半がトレーニングから推論へと関心を移す前のことです。同社の主要製品は、オープンウェイトモデルを実行する AI スタートアップや企業向けの専用推論エンドポイントサービスです。FriendliAI は Azure、AWS、GCP と並ぶ Hugging Face のデプロイメントオプションとしても掲載されており、現在はプラットフォーム上の 50万を超えるオープンウェイトモデルをサポートしています。
InferenceSense は現在、その推論エンジンを、ワークロード間で GPU の容量問題に直面する運用者向けに拡張しています。
仕組み
InferenceSense は Kubernetes の上で動作します。これは多くの neocloud 運用者がリソースオーケストレーションにすでに使用しているものです。運用者は FriendliAI が管理する Kubernetes クラスターに対して GPU のプールを割り当て、どのノードが利用可能で、どの条件下で回収可能かを宣言します。アイドル状態の検出は Kubernetes 自身で実行されます。
「私たちはこれらの neocloud — あるいはクラウド — ベンダーの GPU 上で動作する独自のオーケストレータを持っています」と Chun は言いました。 「Kubernetes を確実に活用していますが、上に走るソフトウェアは非常に高度に最適化された推論スタックです。」
GPU が未使用のとき、InferenceSense は DeepSeek、Qwen、Kimi、GLM、MiniMax を含むオープンウェイトモデル上で有料推論ワークロードを提供する孤立したコンテナを起動します。運用者のスケジューラがハードウェアを取り戻す必要があるときには、推論ワークロードが事前に中断され、GPU が返却されます。FriendliAI は、引き継ぎが数秒内に完了すると述べています。
需要は FriendliAI の直接クライアントや OpenRouter のような推論アグリゲータを通じて集約されます。運用者が容量を提供し、FriendliAI が需要パイプライン、モデル最適化、サービングスタックを担当します。前払い料金はなく、最低コミットメントもありません。リアルタイムのダッシュボードには、どのモデルが実行中か、処理中のトークン、蓄積された収益が表示されます。
トークンのスループットが生の容量レンタルを凌ぐ理由
CoreWeave、Lambda Labs、RunPod などの提供者によるスポット GPU 市場は、クラウドベンダーが自社のハードウェアを第三者にレンタルする仕組みです。InferenceSense は neocloud の運用者がすでに所有するハードウェア上で動作し、運用者が参加するノードを定義し、事前に FriendliAI とのスケジューリング契約を結びます。区別が重要です。スポット市場は容量を収益化しますが、InferenceSense はトークンを収益化します。
GPU-時間あたりのトークンスループットが、未使用のウィンドウで InferenceSense が実際にどれだけ稼げるかを決定します。FriendliAI は、同社のエンジンが標準的な vLLM 展開の2〜3倍のスループットを提供すると主張しているが、Chun は workload のタイプによって数値が異なると指摘しています。
ほとんどの競合する推論スタックは、Python ベースのオープンソースフレームワークに基づいて構築されています。FriendliAI のエンジンは C++ で書かれており、NVIDIA の cuDNN ライブラリよりもカスタム GPU カーネルを使用しています。同社は、ハードウェア全体にまたがるモデルの分割と実行のための独自のモデル表現レイヤーを構築し、推論デコード、量子化、KV キャッシュ管理の独自実装を備えています。
FriendliAI のエンジンが標準的な vLLM スタックよりも GPU-時間あたりに処理するトークン数が多いため、運用者は自分の推論サービスを立ち上げて得られる未使用サイクルあたりの収益よりも多くを生み出すべきです。
推論コストを評価する AI エンジニアが注視すべき点
推論ワークロードをどこで実行するかを評価する AI エンジニアにとって、neocloud 対 ハイパースケーラーの決定は、価格と可用性が大きな要因でした。
InferenceSense は新たな考慮点を加えます。neocloud が推論を通じて idle 容量を収益化できるなら、トークン価格を競争力を保つ経済的な動機がより強く働くでしょう。
それは今日、インフラの意思決定を変える理由にはなりません — まだ Early です。しかし、総推論コストを追跡するエンジニアは、InferenceSense のようなプラットフォームの neocloud 採用が、今後 12 か月間に DeepSeek や Qwen の API 価格を下げる圧力を生み出すかどうかを注視すべきです。
「より効率的なサプライヤーが増えれば、全体のコストは下がります」と Chun は語った。「InferenceSense を使えば、これらのモデルをより安くすることに貢献できます。」