1つのエージェントで高速モデルと深いモデルを混在させる方法(そしてAIコストを80%削減)

Dev.to / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage

要点

  • この記事は、エージェントが単一モデルだけでタスクを処理する方式は非効率だと指摘し、安価なモデルでは難しいタスクで失敗し、旗艦モデルでは簡単な返信でコストを浪費しがちだと述べています。
  • 1つのエージェント内で「高速」と「深い」モデルを組み合わせれば、約70〜90%のAI請求額削減と、目立った品質低下なしを両立できると主張しており、実例の試算で説明しています。
  • 「高速」「深い」はモデルの区分というより、同一エージェントが呼び出す運用モードであり、待ち時間の要件、タスクの明確さ、誤りのリスクに応じて使い分けると説明しています。
  • 実務的なルーティング手法として、確信度ベースのエスカレーション(高速で実行し、確信度が低ければ深いモデルで再実行)やタスク種別ルーティングなどを提示しています。

私が現場で見かけたほとんどのエージェントは、同じ過ちを犯します。1つのモデルを選んで、すべてのタスクをそこにルーティングしてしまうのです。安価なモデルを選べば、難しいタスクでエージェントは失敗します。旗艦モデルを選べば、「天気は?」みたいな返信のたびにお金を燃やすことになります。

1つのエージェント内で速いモデルと深いモデルを混ぜることは、コストに対して最もレバレッジの高い一手です。正しくやれば、知覚できる品質低下なしにAI請求額を70〜90%削減できます。

数式

典型的な本番用エージェントで、月50,000件のタスクを処理し、1タスクあたり約1,000トークンだとします。すると合計は50Mトークンです。

もしすべてが Claude Opus 4.7(1Mあたり$15入力 / $75出力)で動くなら:

  • 〜$500/月(控えめ)

では、負荷を分割するとします。70%をGemini 3 Flash($0.30/$0.50)、20%をClaude Sonnet 4.6($3/$15)、10%をOpus 4.7:

  • 高速ティア:〜$15/月
  • 中間ティア:〜$60/月
  • 旗艦ティア:〜$50/月
  • 合計:〜$125/月

同じエージェントで、ユーザー視点の同じ出力なのに、コストは75%低下です。AIエージェントのコスト削減の詳細 →

「速い」と「深い」が実際に意味するもの

これらはモデルのカテゴリではありません。あくまで同一エージェントが呼び出せる モード です。

Fastモード(速いモード)=高スループット・低遅延・低コスト。エージェントがこれを使うのは:

  • ユーザーが待っているとき(チャット返信、音声)
  • タスクが明確に定義されているとき(分類、整形、「このメールから日付を抽出する」)
  • エージェントが内部の事務処理をしているとき(どのツールを呼ぶかを決める、過去の文脈を要約する)

2026年の高速ティアは:Gemini 3 Flash(250+ t/s)、GPT-5.4 mini xhigh(151 t/s, $1.69/M)、Qwen3.6 Plus($1.13/M, 53 t/s)、Grok 4.20(168 t/s)です。

Deepモード(深いモード)=エージェントがじっくり考えます。使うのは:

  • タスクが多段の推論を要するとき(デバッグ、計画、コンプライアンス確認)
  • 出力がユーザーに 最終回答 として渡されるとき(途中のステップではなく)
  • 間違えたときの影響範囲が大きいとき(メール送信、取引の実行、コードのデプロイ)

2026年の深いティア:Claude Opus 4.7GPT-5.4 xhighGemini 3.1 Pro Preview。Sonnet 4.6は「ほぼ旗艦」の中間オプションで、多くのチームがデフォルトにしています。

機能するルーティングパターン

パターン1:信頼度ベースのエスカレーション。 タスクを高速モデルで実行します。自己評価で信頼度を出させます。しきい値を下回ったら深いモデルで再実行。分類、抽出、要約によく機能します。不確実なケースでは往復1回分の追加が発生しますが、多くの旗艦呼び出しを避けられます。

パターン2:タスク種別のルーティング。 タスクの種類ごとにルーティングをハードコードします。カレンダー解析→高速。法務レビュー→深い。カスタマーサポートの下書き→最初のパスは高速、顧客がエスカレーションしたら深い。考えやすく、デバッグもしやすいのが最大の利点です。

パターン3:二段階エージェント。 高速モデルが仕事の計画を立て、どのツールを呼ぶかを決めます。深いモデルは、実際に思考を要するステップを実行します。多くの本番エージェントは最終的にここに落ち着きます。Klaws の「Fast / Deep」トグルは、まさにこれです。Fastモードでは、Gemini 3 Flashでエージェントループを回してチャットをキビキビさせます。Deepモードでは、Qwen 3.6 PlusとClaude Opusに切り替え、質問が本当に深い思考を要する場合に対応します。

パターン4:ユーザー操作。 「Deep」ボタン、または /think harder コマンドを用意します。デフォルトは高速。必要なときにユーザーが深い方を選べるようにします。ユーザーが自分で適切に選ぶケースが、驚くほど多いです。

何がうまくいかないのか

私が最もよく見かける失敗:

プロンプト長でのルーティング。 「長いプロンプト→大きいモデル」というのは悪いヒューリスティックです。トークン50の「装着していないツバメの飛行速度は?」はOpusが必要です。トークン50,000の「このトランスクリプトを要約して」はFlashで動かせます。

評価(eval)を飛ばす。 どのティアに属するタスクかは、両方のモデルで実行して比較しないと分かりません。「これは難しい」という直感は信頼できません。私は、最安モデルで十分に処理できるタスク種別に対して、チームが10倍コストを燃やしているのを見てきました。

フォールバックがない。 高速モデルはレート制限にぶつかります。旗艦モデルは障害が起きます。モデルが1つしか接続されていないエージェントだと、Anthropicのインシデントでプロダクトが死にます。必ず、別ティアのフォールバックモデルを用意してください。

コストを唯一の軸として扱う。 深いモデルだけが、エッジケース(セキュリティ調査、医療、法務)で拒否しないことがあります。逆に、速いモデルだけが正しいツール呼び出し用のスキーマを持っていることもあります。コストは、複数の制約条件のうちの1つに過ぎません。

実装の現実

これを自分でやるなら、やるべきことは次の通りです:3〜5社のプロバイダーでベンダーアカウントを用意する、タスクごとのルーティングロジックを実装する、ルーティング判断を検証するevalハーネスを用意する、レート制限に対するリトライ/フォールバックを用意する、ベンダー間での請求の照合作業を行う、そしてデバッグのために「どのモデルがどのタスクを処理したか」を追跡する。これは、サブチーム分くらいの仕事量です。

ショートカット:ルーティングを行うプラットフォームを使うこと。Klaws は、単純なチャットをGemini 3 Flashに、複雑な推論をQwen 3.6 PlusまたはClaude Opus 4.7に、コードをGPT-5.3 Codexに、長文ドキュメントをGemini 3.1 Proに振り分けます。そしてAPIを行き来して調整する代わりに定額クレジットで支払えます。同じルーティングの作法で、配管(プラミング)は不要です。

Klawsを3日間無料で試す →

より深く読むために:2026年のモデル・リーダーボード(全文)エージェント用モデルの選び方、そしてエージェントを作り直さずにモデルを切り替える方法