MCP Optimizerでチーム全体のトークン無駄遣いを削減する

Dev.to / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

MCP Optimizerは、個別設定ではなく最適化を一元化することで、チーム全体のトークン無駄を削減します。
個別のOptimizer設定は構成のずれ、リソース非効率、一貫しない結果によりスケールしにくいです。
StacklokのVirtual MCP Server（vMCP）は、適切なツールを動的に露出する統一ゲートウェイを提供し、展開と管理を簡素化します。
このソリューションは、エージェントごとの設定なしにトークンコスト削減と推論速度向上を自動的に実現し、AIエージェントに利益をもたらします。
Kubernetesによる簡素な展開により、チームは素早くOptimizerを統合し、大規模にトークン費用を大幅に削減できます。

すでに自分自身のトークン請求額を削減していますね。では、チームの全員に対して、彼らが何も操作しなくても同じことができると想像してみてください。

この記事で学べることは次のとおりです：

なぜ個別のOptimizer設定がスケールしにくいのか、そして代わりに何をすべきか
StacklokのVirtual MCP Server (vMCP)が単一の展開でチーム全体のトークン節約を実現する方法
AIエージェントが個別設定なしで自動的に恩恵を受ける仕組み
Kubernetes上でのOptimizerの2ステップ展開方法

MCP Optimizerは統一されたvMCP Gatewayエンドポイントを通じて、クライアントに必要な時にのみ適切なツールを動的に見つけて露出します。

問題のスケール化

ToolHive MCP OptimizerでAIワークフローのトークン無駄を削減するを読んだなら、ローカルのOptimizerは素晴らしいことをご存知でしょう—ダウンロードして実行すれば、当社のベンチマークでリクエストあたり60〜85％のトークン削減が見られます。しかし、個別の設定はエンタープライズレベルにはなりません。各チームメンバーに埋め込みモデルをインストールさせ、検索パラメータの調整をし、他のツールと並行して稼働させ続けることはできません。そして、プラットフォームチームに各設定が正しく構成され維持されているかを確認させるのも難しいです。接続した瞬間に全員が恩恵を受けられるソリューションが必要です。

最初の頭痛の種は構成のずれです。ある人は別の埋め込みモデルを使い、別の人は3週間前にハイブリッド検索の比率を変えたまま誰にも伝えず、また他の人はOptimizerの設定が必要だとも知らず、なぜ自分のトークン請求額が他の3倍なのか疑問に思っています。一方、各マシンはそれぞれ独自に埋め込み推論を走らせてCPUやメモリを消費しています—そのリソースは本来他に使えたはずです。

AIエージェントは問題と効果を両方とも増幅します。複数のMCPサーバーに分散したエージェントは、毎回の呼び出しで全ツールカタログをコンテキストウィンドウに詰め込みます。5、6台のMCPサーバーに接続するとカタログは急増します。トークンの請求額が上がり、推論は遅くなり、LLMは説明が多すぎて誤ったツールを選択し始めます。

これを毎日数百回のエージェント実行で掛け合わせると、中央のOptimizerなしでは各エージェントとサーバーの組み合わせごとに手動設定が必要になります。

実際に望むのは、ユーザーもAIエージェントも、どこか一箇所で一度だけ設定すれば全員が自動で恩恵を受けることです。これがまさにStacklokがvMCPとOperatorを通じて提供するものです。

Optimizerの仕組み

基本的な考え方は単純です。複数MCPサーバーの全ツールリスト（数百の説明になることもある）をAIエージェントに送るのではなく、Optimizerはそれらを2つのメタツールに集約します：

エージェントはツール使用が必要なプロンプトを受け取る
必要な内容の自然言語の説明でfind_toolを呼び出す
Optimizerは全登録ツールに対してハイブリッド検索（意味検索とキーワード検索）を実行する
関連ツールのみが返される—通常は200以上のうち約8つ
エージェントは必要なツールを呼び出すためcall_toolを使う

エージェントは全ツールカタログを一度も目にしません。必要な説明だけを利用し、LLMはより少ない、より関連性の高い選択肢に集中します。

詳細な仕組みやベンチマークについては元のOptimizerブログ記事をご覧ください。

vMCPの力を保ちつつコスト削減を実現

すでにStacklokをKubernetesで運用しているなら、おそらくvMCPを使用しているでしょう。これは複数のMCPサーバーを単一のエンドポイントの背後に集約する統一ゲートウェイです。vMCPには以下の特徴があります：

統一ゲートウェイ： すべてのMCPサーバーの単一エンドポイント。新人チームメンバーのオンボーディングは1つのURL共有だけで済み、複数の接続設定は不要。
認証と認可： クライアント（OIDC、匿名など）およびアウトゴーイング接続の中央認証で、各MCPサーバーを変更せずにアクセス制御を強制可能。
集約と競合解決： MCPサーバー間でツール名が重複するときは、自動プレフィックス付加、優先順位付け、手動オーバーライドで対応。

Optimizerはさらにもう1層上に：

トークン最適化： ゲートウェイの背後の全ツールがインデックスされ、クライアントは完全カタログではなくfind_toolとcall_toolのみを見ます。

節約効果は実績があります。元のOptimizer記事でベンチマーク詳細を解説し、リクエスト毎に60〜85％のトークン減少を示しています。Anthropicのツール検索ツールとの直接比較においても、Optimizerはファーストパーティソリューションに匹敵またはそれ以上でした。

トークン節約だけが利点ではありません。ツール説明が減ることでLLMが処理すべきノイズが減り、より良いツール選択と誤ったツール呼び出しの減少につながります。トークンを節約しつつ成果も向上させられます。

KubernetesでのOptimizer展開方法

Kubernetesのセットアップは意図的に最小限です。必要なのは2つ：EmbeddingServerとそれを参照するVirtualMCPServerです。

ステップ1: EmbeddingServerをデプロイする

EmbeddingServerのカスタムリソース定義（CRD）はチーム全体で共有する埋め込みモデルを管理します。デフォルトが賢く組み込まれているため、最小限の設定は以下のとおりです。

apiVersion: toolhive.stacklok.dev/v1alpha1
kind: EmbeddingServer
metadata:
  name: optimizer-embedding
spec: {}

オペレーターはデフォルトでBAAI/bge-small-en-v1.5モデルを使い、HuggingFace Text Embeddings Inferenceサーバーを起動します。spec.replicasでレプリカ数を増やし、チームのスループットニーズに合わせることが可能です。1つの共有インスタンスが名前空間内のすべてのvMCPにサービスを提供します。利用可能な設定オプションはOptimizerドキュメントをご覧ください。

ステップ2: VirtualMCPServerから参照する

既存のVirtualMCPServerに以下の単一フィールドを追加します：

embeddingServerRef:
  name: optimizer-embedding

これだけの変更です。オペレーターはembeddingServerRefを検知すると、明示的なoptimizer設定がなくても賢いデフォルトでOptimizerを自動設定し、埋め込みサーバーのURLも自動で解決します。手動での配線は不要です。

検索パラメータ、タイムアウトなど細かい調整についてはOptimizerドキュメントの完全リファレンスを参照してください。

コスト削減効果は積み重なる

リクエスト単位の節約は十分魅力的ですが、チーム全体での利用を掛け合わせると効果はさらに大きくなります：すべてのチームメンバーが、すべてのリクエストを、毎日実行します。一般的なAPI価格の場合、この節約は非常に早く累積されます。トークンが少ないほど、応答も高速化し、組織のレイテンシも低下します。

純粋なコスト削減以外にも、Kubernetesによる展開は運用面の利点があります：

GitOpsに適応： EmbeddingServerとVirtualMCPServerの設定はGitに保存され、プルリクエストでレビューされ、既存のCI/CDパイプライン経由でデプロイされます。これにより変更履歴とロールバックが確保され、コンプライアンス要件に対応します。
共有埋め込みサーバー： 各マシンでローカルモデルを動かす代わりに、1つのインスタンスがチーム全体にサービスを提供します。リソース無駄が減り、動作が一貫します。
利用者のセットアップ不要： ユーザーはMCPクライアントの先をvMCPエンドポイントに向けるだけ。Optimizerは透過的であり、ユーザーは存在すら意識する必要がありません。
中央集約のセキュリティ境界： 全ツールの発見プロセスが1か所を通るため、チームがアクセス可能なツールを監査・制御しやすくなります。

リソース

以下は上記で参照した資料と追加リソースです：

Optimizerドキュメント： 設定ガイド
vMCPブログ記事： Virtual MCP Serverの紹介：複数MCPワークフローのための統一ゲートウェイ
vMCPドキュメント： Virtual MCP Server設定ガイド
クイックスタート例： vmcp_optimizer_quickstart.yaml：複数MCPバックエンドを完全自動設定Optimizer付きでデプロイ
すべてのオプション例： vmcp_optimizer_all_options.yaml：すべての調整パラメータを網羅
元のOptimizerブログ： AIワークフローからトークン無駄を削減する
ToolHive GitHub： github.com/stacklok/toolhive

Stacklokが組織にもたらす効果を見てみたいですか？デモを予約するか、オープンソースプロジェクトのToolHiveで今すぐ始められます。Discordで直接チームと交流してください。

AIにイラスト作成を依頼するのは意外と難しい

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

MCP Optimizerでチーム全体のトークン無駄遣いを削減する

要点

問題のスケール化

Optimizerの仕組み

vMCPの力を保ちつつコスト削減を実現