5年前、「どのAIモデルを使うべきか」は1行で答えられました。ですが今では、少なくとも12のフロンティア級モデルがあり、間違った選択をすると、トークン代で破産するか、最も重要なタスクでエージェントが機能不全に陥ります。
ここで紹介するのは、新しいエージェントにモデルを組み込むときに私が使っているフレームワークです。
ステップ 1: ウィッシュリストではなく、業務量を定義する
人はリーダーボードでモデルを選びます。ですがそれは間違いです。重要なのは、あなたのエージェントが実行するタスクの分布です—多くの場合、それは一様ではありません。
ほとんどの実運用エージェントは、だいたいこうなります:
- 70% つまらない(軽い)呼び出し — 書式設定、分類、「このメールはカレンダー招待ですか?」、短い返信
- 20% 中程度の呼び出し — 要約、いくつかのドキュメントに対する推論、あなたの口調での下書き
- 10% 難しい呼び出し — 複数ステップの計画、デバッグ、コード生成、長文コンテキストの分析
10%の部分に最適化すると、必要なかった70%の分まで10倍のコストを払うことになります。逆に70%に最適化すると、最初に難しいタスクに当たった瞬間に、エージェントははっきりと失敗します。
つまりモデルを選ぶ前に、あなたのエージェントが通常の1日で実際に何をするのかを書き出してください。タスクの種類ごとの量(ボリューム)を具体的に。
ステップ 2: いちばん制約になる次元に合わせる
各タスクのカテゴリごとに、これらの次元のうち1つが「拘束条件(ボトルネック)」になります。その次元で勝てるモデルを選び、総合ベンチマークで選ばないでください。
レイテンシ。 ユーザーに見えるもの—チャットUI、音声エージェント、人が待っている状況のすべて。3秒未満なら「即時」に感じられ、10秒を超えると壊れていると感じます。高速なモデルを選びましょう:Gemini 3 Flash(250+ t/s)、Grok 4.20(168 t/s)、GPT-5.4 mini xhigh(151 t/s)。全レイテンシの内訳 →
コスト。 高頻度で回すもの—ログの分類、ドキュメントのタグ付け、1日に1,000通のメールを要約するなど。安いモデルを選びましょう:MiniMax-M2.7($0.53/M)、Qwen3.6 Plus($1.13/M)、GPT-5.4 mini($1.69/M)。安いのに使えるモデル →
推論の深さ。 複数ステップの計画、デバッグ、複雑な分析。フラッグシップを選びます:Claude Opus 4.7、GPT-5.4 xhigh、Gemini 3.1 Pro。ミッドレンジのモデルとの差(7点の知能指数のギャップ)は、多くの場合は普段は目に見えませんが、イレギュラーなケースでは決定的です。最上位モデルの深掘り →
コンテキストウィンドウ。 100kトークン超のドキュメント、完全なコードベース、長い会話履歴。2Mトークンで品質を保てる唯一のフロンティア級モデルがGemini 3.1 Proです。長文コンテキスト比較 →
コード生成。 GPT-5.3 Codex xhigh または Claude Opus 4.7。Kimi K2.6(オープンウェイト)は、自前でホストできるなら、12倍低コストでも本当に競争力があります。コーディング向けのベストモデル →
ビジョン。 GPT-5.4 xhighが勝ちます。スクリーンショット、図、チャートに対する推論が最も強い領域です。
多言語 / 非英語。 Qwen3.6 Plus と Gemini 3.1 Pro がリードしています。特にCJK(中国語・日本語・韓国語)系の文字で有利です。
拒否耐性。 セキュリティ研究、医療・法律の質問、大人向けの創作作業。Grokは2026年において最も許容的です。ClaudeとGeminiは最も慎重です。
ステップ 3: 1つのモデルだけを選ばない
ここで多くのチームが失敗します。単一の「勝ちモデル」を1つ選び、すべての処理をそれにルーティングします。2026年ではそれは高コストで、かつ制約が大きい。
賢いパターンはタスクごとにルーティングすることです。シンプルなチャット → Gemini 3 Flash。推論 → Claude Sonnet 4.6 または Opus 4.7。コード → GPT-5.3 Codex。長文ドキュメント → Gemini 3.1 Pro。ルーティングのパターンは1つのエージェントで高速/高推論のモデルを混ぜる方法 →で詳しく解説しています。
ステップ 4: ベンチマークではなく、あなたのタスクでテストする
ベンチマークは方向性としては役に立ちます。しかし、あなたの特定の業務においてどのモデルが最適かまでは教えてくれません。知能指数で57点のモデルでも、あなたのドメインが、そのポストトレーニングデータで十分に表現されていなければ、あなたの領域ではひどい結果になることがあります。
30分の評価は、2週間のベンチマーク調査を上回ります。あなたの業務から代表的なタスクを20個取ります。3〜4個の候補モデルに通してください。出力を自分で採点するか、チームメイトにブラインド評価してもらいます。正解はたいてい最初の10で見つかります。
ステップ 5: 切り替えを見越して設計する
今日あなたが選ぶものは、6か月後には間違っていることになります。フロンティアは動きが速い—リリースのたびに価格/性能のカーブが変わります。勝てるチームは「今の最良のモデル」を選ぶのではなく、より良いものが出たときに安くモデルを差し替えられる構成を選びます。エージェントを作り直さずにモデルを切り替える方法 →
用途別のクイックリファレンス
- デフォルトの選択 → Claude Sonnet 4.6 または Gemini 3.1 Pro(最良の知能/価格バランス)
- 最も難しい推論 → Claude Opus 4.7 または GPT-5.4 xhigh
- 高頻度の安価なタスク → MiniMax-M2.7 または Qwen3.6 Plus
- レイテンシ重視のUX → Grok 4.20 または Gemini 3 Flash
- 長文ドキュメント(>500kトークン) → Gemini 3.1 Pro(品質を保てる唯一のモデル)
- コード → GPT-5.3 Codex xhigh または Claude Opus 4.7
- ビジョン → GPT-5.4 xhigh
- 非英語 → Qwen3.6 Plus または Gemini 3.1 Pro
最短ルート
これらを全部自分で組み立てたくないなら、Klawsがルーティングを最初から用意してくれます。シンプルなタスクはGemini 3 Flash、複雑な推論はQwen 3.6 Plus または Claude Opus、コードはCodex、長文ドキュメントはGemini Proに着地—そして6つのプロバイダアカウントを行き来して管理する必要もなく、フラットクレジットを支払うだけです。
それが、Klaws上のエージェントが、同じ業務量を1つのプロバイダに直接組み込んだ場合と比べてコストを一部に抑えられる理由でもあります。ルーターが、過剰な性能が不要な70%のタスクではフラッグシップをスキップするからです。
具体的な一対一の比較は:Claude Opus 4.7 vs GPT-5.4、Gemini 3.1 Pro vs Claude Opus、そして2026リーダーボードの完全な内訳をご覧ください。


