私が現場で見かけたほとんどのエージェントは、同じ過ちを犯します。1つのモデルを選んで、すべてのタスクをそこにルーティングしてしまうのです。安価なモデルを選べば、難しいタスクでエージェントは失敗します。旗艦モデルを選べば、「天気は?」みたいな返信のたびにお金を燃やすことになります。
1つのエージェント内で速いモデルと深いモデルを混ぜることは、コストに対して最もレバレッジの高い一手です。正しくやれば、知覚できる品質低下なしにAI請求額を70〜90%削減できます。
数式
典型的な本番用エージェントで、月50,000件のタスクを処理し、1タスクあたり約1,000トークンだとします。すると合計は50Mトークンです。
もしすべてが Claude Opus 4.7(1Mあたり$15入力 / $75出力)で動くなら:
- 〜$500/月(控えめ)
では、負荷を分割するとします。70%をGemini 3 Flash($0.30/$0.50)、20%をClaude Sonnet 4.6($3/$15)、10%をOpus 4.7:
- 高速ティア:〜$15/月
- 中間ティア:〜$60/月
- 旗艦ティア:〜$50/月
- 合計:〜$125/月
同じエージェントで、ユーザー視点の同じ出力なのに、コストは75%低下です。AIエージェントのコスト削減の詳細 →
「速い」と「深い」が実際に意味するもの
これらはモデルのカテゴリではありません。あくまで同一エージェントが呼び出せる モード です。
Fastモード(速いモード)=高スループット・低遅延・低コスト。エージェントがこれを使うのは:
- ユーザーが待っているとき(チャット返信、音声)
- タスクが明確に定義されているとき(分類、整形、「このメールから日付を抽出する」)
- エージェントが内部の事務処理をしているとき(どのツールを呼ぶかを決める、過去の文脈を要約する)
2026年の高速ティアは:Gemini 3 Flash(250+ t/s)、GPT-5.4 mini xhigh(151 t/s, $1.69/M)、Qwen3.6 Plus($1.13/M, 53 t/s)、Grok 4.20(168 t/s)です。
Deepモード(深いモード)=エージェントがじっくり考えます。使うのは:
- タスクが多段の推論を要するとき(デバッグ、計画、コンプライアンス確認)
- 出力がユーザーに 最終回答 として渡されるとき(途中のステップではなく)
- 間違えたときの影響範囲が大きいとき(メール送信、取引の実行、コードのデプロイ)
2026年の深いティア:Claude Opus 4.7、GPT-5.4 xhigh、Gemini 3.1 Pro Preview。Sonnet 4.6は「ほぼ旗艦」の中間オプションで、多くのチームがデフォルトにしています。
機能するルーティングパターン
パターン1:信頼度ベースのエスカレーション。 タスクを高速モデルで実行します。自己評価で信頼度を出させます。しきい値を下回ったら深いモデルで再実行。分類、抽出、要約によく機能します。不確実なケースでは往復1回分の追加が発生しますが、多くの旗艦呼び出しを避けられます。
パターン2:タスク種別のルーティング。 タスクの種類ごとにルーティングをハードコードします。カレンダー解析→高速。法務レビュー→深い。カスタマーサポートの下書き→最初のパスは高速、顧客がエスカレーションしたら深い。考えやすく、デバッグもしやすいのが最大の利点です。
パターン3:二段階エージェント。 高速モデルが仕事の計画を立て、どのツールを呼ぶかを決めます。深いモデルは、実際に思考を要するステップを実行します。多くの本番エージェントは最終的にここに落ち着きます。Klaws の「Fast / Deep」トグルは、まさにこれです。Fastモードでは、Gemini 3 Flashでエージェントループを回してチャットをキビキビさせます。Deepモードでは、Qwen 3.6 PlusとClaude Opusに切り替え、質問が本当に深い思考を要する場合に対応します。
パターン4:ユーザー操作。 「Deep」ボタン、または /think harder コマンドを用意します。デフォルトは高速。必要なときにユーザーが深い方を選べるようにします。ユーザーが自分で適切に選ぶケースが、驚くほど多いです。
何がうまくいかないのか
私が最もよく見かける失敗:
プロンプト長でのルーティング。 「長いプロンプト→大きいモデル」というのは悪いヒューリスティックです。トークン50の「装着していないツバメの飛行速度は?」はOpusが必要です。トークン50,000の「このトランスクリプトを要約して」はFlashで動かせます。
評価(eval)を飛ばす。 どのティアに属するタスクかは、両方のモデルで実行して比較しないと分かりません。「これは難しい」という直感は信頼できません。私は、最安モデルで十分に処理できるタスク種別に対して、チームが10倍コストを燃やしているのを見てきました。
フォールバックがない。 高速モデルはレート制限にぶつかります。旗艦モデルは障害が起きます。モデルが1つしか接続されていないエージェントだと、Anthropicのインシデントでプロダクトが死にます。必ず、別ティアのフォールバックモデルを用意してください。
コストを唯一の軸として扱う。 深いモデルだけが、エッジケース(セキュリティ調査、医療、法務)で拒否しないことがあります。逆に、速いモデルだけが正しいツール呼び出し用のスキーマを持っていることもあります。コストは、複数の制約条件のうちの1つに過ぎません。
実装の現実
これを自分でやるなら、やるべきことは次の通りです:3〜5社のプロバイダーでベンダーアカウントを用意する、タスクごとのルーティングロジックを実装する、ルーティング判断を検証するevalハーネスを用意する、レート制限に対するリトライ/フォールバックを用意する、ベンダー間での請求の照合作業を行う、そしてデバッグのために「どのモデルがどのタスクを処理したか」を追跡する。これは、サブチーム分くらいの仕事量です。
ショートカット:ルーティングを行うプラットフォームを使うこと。Klaws は、単純なチャットをGemini 3 Flashに、複雑な推論をQwen 3.6 PlusまたはClaude Opus 4.7に、コードをGPT-5.3 Codexに、長文ドキュメントをGemini 3.1 Proに振り分けます。そしてAPIを行き来して調整する代わりに定額クレジットで支払えます。同じルーティングの作法で、配管(プラミング)は不要です。
より深く読むために:2026年のモデル・リーダーボード(全文)、エージェント用モデルの選び方、そしてエージェントを作り直さずにモデルを切り替える方法。


