LLMの推論を最適化しました。プロンプトも最適化しました。ですが、エージェントが実際に何かを実行する必要が出た瞬間、壁にぶつかります。理由はこれです。そして、その壁を突破する方法です。
Victor M(Fleeks共同創業者)
モデルは速くなりました。推論は鋭くなりました。プロンプトは外科手術のようになりました。
それでも、自律エージェントが本当に何かを実行しなければならなくなった瞬間(プレビューを立ち上げる、テストスイートを実行する、ライブデータベースに接続する)、すべてが止まります。AIが間違っているからではありません。AIが働こうとしている世界が、AIが思っているスピードで動けるように作られていないからです。
私たちはこれをインフラ・レイテンシ・ギャップと呼んでいます。
あなたのエージェントは考えるのに4秒かかるのに、作業を検証するためにコンテナをデプロイするのに45秒かかるなら、そのエージェントは自律的ではありません。あなたが待っている“別の何か”にすぎません。
知能はもはやボトルネックではありません。インフラがそうです。
私たちはこの問題を解決しようと取り組みました。そして、その解決方法は「エージェントのデプロイ方法」だけでなく、エージェントが何に到達できるかを変えます。
Table of Contents
- デプロイの壁:それが実際に何か
- 数で見るインフラ・レイテンシ・ギャップ
- すべてのAIコーディングツールに共通する致命的な欠陥
- Cursor + Fleeks:1コマンドでコードからクラウドへ
- Claude Code + Fleeks:Anthropicの頭脳にエンタープライズ級のインフラを
- Aider + Fleeks:Write → Commit → Deployのループ
- Windsurf + Fleeks:フローの速度で公開する
- このギャップを埋めるアーキテクチャ
- 実行が推論に追いついたときに可能になること
- リソース
1. デプロイの壁:それが実際に何か
AIエージェントを作るチームなら、誰もが一度は経験したであろうシナリオがあります。
あなたはエージェントにタスクを渡します:「支払いサービスをリファクタリングして、非同期リトライに対応させ、プレビューをデプロイして」
エージェントは推論します。設計します。コードを生成します。ここまででかかるのはおよそ8秒。正直かなりすごい。
次に、それを検証しなければなりません。
そして、あなたは待ちます。
Dockerビルド。CIキュー。コンテナのコールドスタート。ヘルスチェック。DNSの伝播。4分後にプレビューURLが得られます。エージェントは次の判断をします。またあなたは待つことになります。
10回の反復が完了する頃には、エージェントは考えるのにせいぜい90秒、待つのに40分以上を費やしています。
これがデプロイの壁です。モデルの失敗ではありません。モデルが作業しようとしている“中の”インフラの失敗です。
核心となる洞察: 従来のインフラは、人間のペースのワークフロー向けに設計されていました。5分のデプロイ・パイプラインは、人間の開発者がコーヒーを取りに行ったり、Slackを確認したり、いずれにせよ差分をレビューする必要があるときには「速い」と言えました。ですが、エージェントはその時間を必要としません。エージェントは、結果を得た瞬間にすぐ次の行動を開始できるのです。そして、インフラのレイテンシが1秒あるごとに、その間エージェントの推論は停止し、お金と勢いを燃やしてしまいます。
本番品質のエージェントには、本番品質のインフラが必要です。エフェメラルで、瞬時に動き、そしてトークン自体と同じくらい速いこと。
2. 数で見るインフラ・レイテンシ・ギャップ
解決策について語る前に、問題を具体化しましょう。
典型的な“エージェント的”イテレーション・ループ(最適化なし):
| ステップ | 何が起きるか | レイテンシ |
|---|---|---|
| エージェントがタスクを推論する | LLM推論、計画 | 約4〜8秒 |
| コードを書き込み、ディスクに保存 | ファイルI/O、コンテキスト更新 | 約1〜2秒 |
| Dockerイメージをビルドする |
docker build(レイヤーキャッシュ付き) |
約45〜120秒 |
| コンテナを起動する | コールドスタート、ポートバインド | 約5〜15秒 |
| ヘルスチェックが通る | readiness probe、リトライ待ち時間 | 約5〜10秒 |
| プレビューURLが解決する | DNS + TLSネゴシエーション | 約5〜20秒 |
| 1イテレーションあたりの合計 | 約65〜175秒 |
では10回回してみましょう。モデルが推論にかける時間が2分未満のタスクに対して、インフラ待ちが18〜49分発生します。
Fleeksで同じループを回した場合:
| ステップ | 何が起きるか | レイテンシ |
|---|---|---|
| エージェントがタスクを推論する | LLM推論、計画 | 約4〜8秒 |
| コードがライブコンテナに書き込まれる | ダイレクトなファイル同期 | 約0.2秒 |
| ウォーム済みコンテナが変更を取り込む | 再ビルドなし、スナップショットモデル | 約0.1秒 |
| HTTPSプレビューURLが利用可能になる | 事前プロビジョニング済みのエッジルーティング | 約0.5秒 |
| 1イテレーションあたりの合計 | 約5〜9秒 |
知能は変わっていません。インフラが変わったのです。
3. すべてのAIコーディングツールに共通する致命的な欠陥
今あなたは、おそらく主要なAIコーディング支援ツールのどれかを使っているはずです。Cursor、Claude Code、Aider、Windsurfのいずれかでしょう。これらは、コード生成、プロジェクトコンテキストの理解、そしてシニアエンジニアが数時間かけて作るような深さでのリファクタリングにおいて、驚くほど優れています。
ですが、すべてに共通する致命的な構造上の欠陥があります。
それらはあなたのローカル環境に閉じ込められています。
それらがフルスタックアプリケーションを生成すると、成果物をあなたに返します。あなたがDockerコンテナを用意します。ポートを設定します。ローカル依存関係を管理します。データベースに接続するだけでも、Model Context ProtocolのJSONファイルをつなぎ合わせます。テストを手動で実行し、失敗を確認し、エラーをコピペで次のやり取りに戻し、次の反復を待ちます。
エージェントは12秒でコードを書きました。あなたはそれを動かすために20分かけました。
これはAIの問題ではありません。引き渡しの問題です。モデルが推論を終え、環境が応答しなければならない瞬間に、ループが崩壊します。
直す方法は、AIを賢くすることではありません。環境を速くすることです。
以下は、主要な各コーディングツールにFleeksを統合することで、そのギャップがどのように埋まるのか、まさにその手順です。
4. Cursor + Fleeks:1コマンドでコードからクラウドへ
Cursorが最も得意とすること
Cursorは現在、AIネイティブGUIエディタのリーディングです。VS Codeのフォークとして、開いているファイルやターミナルに対する優れたコンテキスト認識を備えています。インラインでのコード生成(Cmd+K)や、会話形式でのコードベース編集(Cmd+L)においては比類がありません。Cursorは、あなたのプロジェクトを深く理解しており、単一のプロンプトで複数ファイルにまたがる機能を生成できます。
Cursorがぶつかる壁
Cursorはコードを書くのが非常に優れています。現実世界でそれを実行するのは大の苦手です。
CursorがPythonのFastAPIバックエンドとReactフロントエンドを書いたとしても、あなたは結局、ローカルで両方のサーバーを手動で起動し、環境変数を管理し、互いに通信できない理由を突き止める必要があります。そして共有したいとなれば、さらにそれを公開できる形にする方法を考えなければなりません。
エージェントはコードを書きました。人間がDevOpsを担当します。
掛け算:Cursor + Fleeks
Fleeksを追加することで、Cursorのターミナルの内側からそのループを閉じられます。
# Cursorがあなたのアプリを生成します。あなたは1つのコマンドを入力するだけ:
fleeks deploy
Fleeksは、ローカルのDocker設定を完全にバイパスします。現在の環境状態をスナップショットし、事前ウォーム済みのプールを使ってクラウド上でコンテナをビルドし、出力を読み終える前に、Cursorターミナルへ直接、ライブで共有可能なHTTPS URLを返します。
あなたのエージェントは、ノートPCでコードを書いていた状態から、ビルド時間200ミリ秒未満でデプロイされたプレビューを手にするところまで到達しました。
事例: SaaSダッシュボードを作るソロ創業者
B2B SaaS向けのクライアント分析ダッシュボードを開発していたある開発者は、Cursorでデータ可視化コンポーネントを生成していました。クライアントに進捗を見せるたびに、ビルドを手元でローカル実行し、ngrokで公開して、デモ中にトンネルが切れないことを祈る必要がありました。
Fleeksを統合してからは、Cursorが機能を仕上げるたびに、1つのfleeks deployで永続的なHTTPS URLが得られるようになりました。毎日「1つ」ではなく「5つ」のクライアント向けプレビューリンクを送り始めました。クライアントとのフィードバックループは週次から当日中に短縮されました。
How to integrate
# 1. Cursorターミナルを開く
# 2. Fleeks CLIをインストール
npm install -g fleeks-cli
# 3. 認証
fleeks auth login
# 4. CursorのAIに使わせる:
# "このコードをプッシュしてライブでテストするために `fleeks deploy` を実行して。"
5. Claude Code + Fleeks: Anthropicのブレインにエンタープライズ級インフラを与える
What Claude Code does best
Claude CodeはAnthropicが直接作った、コマンドラインツールです。自律的なターミナルワークフローで真価を発揮します。CLI上で直接動くため、シェルスクリプトの実行、ファイルツリーの読み取り、git履歴の操作、そしてClaude Sonnetに相当する推論能力をフル活用した多段階のエンジニアリングタスクのオーケストレーションまで行えます。
今日利用可能な、自律性の高い汎用コーディングエージェントとしては、おそらく最も自律的な存在です。
The wall Claude Code hits
Claude Codeは推論面で自律的です。しかし、実際のインフラとやり取りする必要が出た瞬間に苦しくなります。
ローカルのPostgreSQLデータベースに接続するには、設定を書き、接続文字列を管理し、環境変数を用意し、そしてローカルのサービスが実際に起動していることを期待する必要があります。Claude Codeにデータベースのマイグレーションを書かせれば、素晴らしいSQLを書いてくれます。でも、その後はpsqlをあなたが手動で実行し、エラーがスクロールしていくのを見ながら、それをコピペして返す番になります。
自律的な推論。手作業のインフラ。
The multiplier: Claude Code + Fleeks
FleeksにはネイティブのMCPエコシステムがあります。Claude Codeがローカルサービスと話すための壊れやすいbashスクリプトを組み立てようとするのではなく、Fleeksのクラウド連携にアクセスさせるのです。
# 利用可能なものを全部見る
fleeks mcp list
# 出力:
# 200+ 件の連携が利用可能:
# - postgres 任意のPostgreSQLデータベースに接続
# - mysql MySQL / MariaDBに接続
# - redis Redisのキー・バリューアクセス
# - github リポジトリ、イシュー、PRの読み書き
# - stripe 決済データと請求管理
# - slack チャンネルのメッセージングと通知
# - s3 オブジェクトストレージの読み書き
# - [... さらに193件]
# 1つをインストール:
fleeks mcp install postgres
これでClaude Codeは、あなたのデータベースへの標準化された安全なインターフェースを手にします。ターミナルに触れることなく、スキーマを照会し、クエリのパフォーマンスを分析し、マイグレーションを書き、出力を検証できます。
# Claude Codeのセッション内:
# > "FleeksのPostgres MCPを使って users テーブルを分析し
# soft deletes を追加するマイグレーションを書いて。"
# Claude CodeがMCPを呼び出し、スキーマを確認して書き込みます:
# ALTER TABLE users ADD COLUMN deleted_at TIMESTAMP;
# CREATE INDEX idx_users_deleted_at ON users(deleted_at) WHERE deleted_at IS NULL;
# その後マイグレーションを実行し、成功を確認します。
Anthropicの推論エンジンに、エンタープライズ級のインフラへのアクセスを与えました。これは段階的な改善ではありません。能力の解放です。
事例: スタートアップの自動スキーママイグレーション
立ち上げ初期のチームでは、スプリントサイクルごとにデータベースのマイグレーションを書いて承認する作業を手作業で行っており、執筆・レビュー・実行の間でスプリントあたり3時間かかっていました。Claude Codeをfleeks mcp install postgres経由でステージングデータベースに接続した後、Claude Codeに「不足しているインデックスがないか全テーブルを監査する」というタスクを任せました。ライブのスキーマを分析し、17個のマイグレーションファイルを生成し、ステージングでそれらを実行し、クエリのパフォーマンスが改善したことを確認し、さらにPRをオープンしました。合計時間: 23分。
How to integrate
# 1. Claude Codeを実行しているあなたのターミナル内でFleeksをインストール
npm install -g fleeks-cli
fleeks auth login
# 2. クラウド連携を一覧し、追加する
fleeks mcp list
fleeks mcp install postgres # または、利用可能な200+のどれでも
# 3. Claude Codeにプロンプト:
# "Fleeks CLIを使って私のデータベースに接続し、マイグレーションのスクリプトを書いて。"
6. Aider + Fleeks: Write → Commit → Deploy ループ
What Aider does best
Aiderは、最高峰のオープンソースCLIエージェントです。ターミナルの中で暮らすエンジニアに愛されており、gitとの相性は抜群です。コードベースに対して外科手術のような編集を行い、プロジェクト全体にまたがるファイルの依存関係を理解し、妥当なコミットメッセージとともに変更を自動でコミットします。
コマンドラインを好むエンジニアにとっての、究極のペアプログラマーです。
The wall Aider hits
Aiderはファイルを見事に編集します。ですが、それを実行はしません。
Aiderがリファクタを終えてコミットした後のデプロイとテストのループは、完全にあなたの責任になります。テストを実行します。失敗を監視します。エラーをAiderのセッションにコピーして戻します。フィードバックのサイクルはこうです: Aiderが書く → 人間が実行する → 人間が報告する → Aiderがまた書く。
そのループから人間を取り除けば、自律的なエンジニアリングになります。そこに残せば、非常に良いオートコンプリートが得られます。
The multiplier: Aider + Fleeks
Fleeksは、Aiderが残してしまう未完のループを閉じます。すべてのコミットの後、Fleeksはそれを介入でき、クラウドコンテナをプロビジョニングし、隔離した状態でテストスイート全体を実行し、結果を自動でAiderに返します。
ループはこうなります: Aiderが書く → Fleeksがデプロイする → テストを実行 → 結果がフィードバックされる → Aiderが修正する → 繰り返し。
# プロジェクトディレクトリでFleeksを初期化します
fleeks init
# Aiderセッションの例:
# あなた:「認証ミドルウェアをJWT RS256を使うようにリファクタリングして。」
# Aider:[変更し、コミットします]
# コミット後、Aiderチャットの中から:
/run fleeks deploy
# 出力はAiderに直接フィードバックされます:
# ? Deployed: https://auth-service-preview.deploy.fleeks.ai
# テスト結果:
# PASS tests/auth.test.ts (14 tests)
# FAIL tests/session.test.ts
# Error: RS256 public key path not found in environment
#
# Aiderは失敗を認識して、すぐに修正します。
テストランナーはエージェント型のループの一部になります。エージェントは、人間が失敗を報告するのを待ちません。失敗を発見し、修正し、修正を検証します。自動的に。
事例研究:バックエンドエンジニアがAPIレイヤーをリファクタリング
シニアエンジニアは、Aiderを使ってレガシーなREST APIをリファクタリングしました。これまでのリファクタリングセッションでは、毎回手動でpytestを実行し、300行に及ぶテスト出力を読み、失敗を特定してから、セッションに再度入り直す必要がありました。Fleeksを統合すると、Aiderがコミットするたびに/run fleeks deployコマンドが自動で実行されるようになりました。テストスイートはクリーンなクラウドコンテナで実行され、失敗は直接フィードバックされます。往復で2日かかっていたリファクタリングが、4時間で済みました。
How to integrate
# 1. Aiderを実行するのと同じディレクトリで、Fleeksを初期化します
fleeks init
# 2. Aiderセッションを通常どおり実行します
# 3. Aiderがタスクを完了したら、チャットの中からFleeksを起動します:
/run fleeks deploy
# Fleeksがクラウドでテストを実行し、結果をAiderに返します。
7. Windsurf + Fleeks: 流れの速さで公開する
What Windsurf does best
Windsurfは「Flows(フロー)」で動作します。これは、AIエージェントが同時にコパイロットとしてコードを提案し、バックグラウンドでは自律的なエージェントとしてタスクを実行するアーキテクチャです。大規模なコードベース全体で深いコンテキスト取得に高度に最適化されており、これまでの判断を見失うことなく、機能開発セッション全体を通して状態を維持します。
複雑なプロダクトを、複数の相互に連携するモジュールで作っているチームにとって、Windsurfのコンテキストウィンドウはその強みです。
The wall Windsurf hits
Windsurfはコンテキストを維持するのが得意です。公開は苦手です。
ステークホルダーやクライアントにプロトタイプを共有したい場合、ローカルホストのスクリーンショットを撮ったり、画面共有をしたりするしかありません。「Windsurfがこの機能を作った」という状態から「誰でも開けるURLがここにある」まで、きれいな道筋はありません。
AIは作業をしました。デリバリーの仕組みはまだ2012年のままです。
The multiplier: Windsurf + Fleeks
FleeksはWindsurfの公開エンジンになります。
Fleeksが、事前にプロビジョニングされたHTTPSとCDNルーティングを備えた即時のクラウドデプロイを提供するため、Windsurfのエージェントに対して、fleeks deployをあらゆるフローにおける第一級のステップとして扱うよう指示できます。
# Windsurf統合ターミナルのセットアップ
fleeks auth login
# Windsurfエージェントに指示:
# 「マーケティングチーム向けのリアルタイム分析ダッシュボードを構築して、
# その後`fleeks deploy`を使って共有可能なプレビュ―リンクを生成して。」
# Windsurfが機能を構築します。
# 起動:fleeks deploy
# 出力:
# ? プレビューをライブ表示:https://analytics-dashboard-p91.deploy.fleeks.ai
# ? このURLをそのままステークホルダーに共有します。
Windsurfはコードを書きます。Fleeksが公開します。あなたのステークホルダーは実際のURLを受け取ります。スクリーンショットでも、画面共有でも、Loomでもありません。クリックして辿れる、ライブでインタラクティブなアプリケーションです。
事例研究:クライアントに毎日プレビューを届けるプロダクトチーム
クライアント向けダッシュボードを作るプロダクト・エージェンシーが、Windsurfを使ってデータ可視化機能を生成し、反復していました。クライアントのレビューサイクルが遅かったのは、進捗を共有するには画面共有のスケジュールを組むか、静的なスクリーンショットを書き出す必要があったためです。Fleeksを統合した後、エージェンシーはWindsurfに対して、毎回のフローの最後に自動でfleeks deployを実行するよう指示しました。クライアントは、最新ビルドに基づく新しいプレビューURLを毎朝受け取りました。改訂サイクルは週次から日次へと減少しました。あるクライアントは、ダッシュボードがリアルタイムに更新されていくのを見られるようになったことで、更新契約を早期に締結しました。
How to integrate
# 1. Windsurf統合ターミナルを開きます
# 2. Fleeksを認証します
fleeks auth login
# 3. Windsurfエージェントに指示:
# 「この機能の構築が終わったら、チーム向けに
# プレビュ―リンクを生成するために `fleeks deploy` を
8. ギャップを埋めるアーキテクチャ
上記の統合が機能するのは、Fleeksがエージェントのワークフローに後付けされたデプロイツールではないからです。エージェントの思考とシステムの現実の間のギャップをなくすために、最初の原理から構築されたランタイムです。
これを可能にする3つのアーキテクチャ上の判断があります。
Pre-Warmed Container Pools
コンテナは、リクエストしたときに起動されません。すでに動いています。
Fleeksはリージョン間で事前にウォームされたコンテナプールを維持します。エージェントやCLIコマンドが環境を要求すると、200ミリ秒未満でプールから取得されます。ビルドは不要です。コールドスタートも不要です。キューもありません。
from fleeks_sdk import FleeksClient
client = FleeksClient(api_key="fleeks_sk_...")
# この行を読み終える前に準備完了
workspace = await client.workspaces.create(
project_id="my-api",
template="fastapi"
)
返却形式: {"translated": "翻訳されたHTML"}health = await workspace.get_health()
print(f"Status: {health.status}") # 実行中
print(f"Time: {health.startup_ms}ms") # <200
本番環境の負荷下でのプール性能:
| 指標 | 値 |
|---|---|
| プールサイズ | リージョンあたり1,000+ コンテナ |
| プールヒット率 | 本番環境の負荷下で >95% |
| コンテナ起動(プールヒット) | 200ms未満(P95) |
| コンテナ起動(コールドプロビジョニング) | 4〜5秒 |
| 分離モデル | コンテナごとの gVisor |
CRIUベースの環境ハイバネーション
エージェントはバースト(短時間のまとまった処理)で動作します。推論し、実行し、次のサイクルに進む前にフィードバックを待ちます。ほとんどのインフラはサイクル間で環境を破棄してしまうため、次のイテレーションでは毎回完全に作り直しが必要になります。
Fleeks は CRIU ベースのチェックポイントによって、実行途中の環境を一時停止し、状態を完全なまま復元して再開できます。再ビルド不要。コンテキストの喪失なし。エージェントは、まさに中断したところから処理を引き継ぎます。
# 計算リソースの予算を維持するためにタスク途中でハイバネート
await workspace.hibernate()
# 後で再開:完全な状態、ゼロの再ビルド
await workspace.resume()
ライブ・インフラストラクチャのミューテーション
ほとんどのプラットフォームは、実行時の構成を変更するためにサービスを再デプロイします。Fleeks はメモリ、並行性、ルーティングの変更を、ランタイム・スケジューラ経由で実行中のコンテナへ直接適用し、新しいデプロイをトリガーしません。サービスは稼働し続けます。変更は適用されるだけです。
頻繁にインフラ調整を行うエージェントにとって、これは待ち時間の一系統を丸ごと排除します。
9. 実行が思考に追いついたときに、何が可能になるか
Deployment Wall(デプロイの壁)を取り除くと、エージェントができることの本質が根本的に変わります。
以前: エージェントは支援します。あなたが出荷します。
AI を使ってコードを書きます。デプロイを実行します。テストを確認します。エラーをフィードバックします。あなたは、エージェントの知性をインフラへつなぐ神経系です。
以後: エージェントが実行します。あなたが承認します。
エージェントはコードを書きます。Fleeks がそれを実行します。テストスイートは分離されたクラウドコンテナで実行されます。失敗は自動的にエージェントの次のイテレーションへフィードバックされます。あなたがタスクを確認する頃には、ライブプレビューURL、パスするテストスイート、提案された PR が揃っています。実行方法をあなたが考えるのを待って積み上がった生成ファイルの山ではありません。
これは「より良いツール」ではありません。インフラとのまったく別の関係です。
すでに Fleeks で構築しているチームは、同じ変化を次のように語っています:
- デプロイのスループットは10人規模のプラットフォームチームと同等で、2人チームで運用
- 1日1件ではなく、1日に5件のレビュー可能なクライアントプレビューを出荷するソロ創業者
- ヘッドカウントを増やさずに、クライアントのフィードバックサイクルを週次から日次へ変えるエージェンシー
- スプリントで一番大変なのが、環境管理ではなくプロダクト判断だというエンジニアリングチーム
知性はこれまでずっとそこにありました。インフラが天井でした。Fleeks はその天井を取り除きます。
あなたのAIアシスタントは脳です。Fleeks は筋肉です。エージェントをローカルのDevOps地獄に埋もれさせないでください。思考の速さで実際に構築し、実行し、出荷するために必要なインフラを渡してください。
リソース
- Fleeks - ワークスペースを無料で開設。セットアップ不要。
- Fleeks の紹介 - Fleeks とは何で、何をするのか?
-
CLIドキュメント -
fleeks deploy、fleeks mcp、fleeks initの完全なリファレンス - MCP連携 - エージェントで利用可能な200以上のツール連携を閲覧
- SDKドキュメント - Python、TypeScript、Go によるプログラム的なアクセス
- AIエージェントの詳細 - 7モード統合エージェントが内部でどのように動作するか




