小型モデルのエージェントスタックが標準にならない理由は、性能が理由ではない

Reddit r/LocalLLaMA / 2026/5/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market MovesModels & Research

共有:

要点

この記事は、小型で特化したモデルによる「エージェントスタック」がデフォルトになっていないのは、技術的にうまくいかないからではなく、むしろ高額なフロンティアモデルを従量課金で提供するビジネス上のインセンティブが強いためだと主張しています。
最近のモデル発表は小型モデル採用の根拠を具体的に押し上げており、Gemma 4 31Bのエージェント用ツール活用ベンチマークでの大幅な改善や、Qwen3.6 27Bが単一の消費者向けGPUでも強い結果を出すなどが例として挙げられています。
コスト面の優位性は非常に明確になっており、DeepSeek V4-Flashのように、1トークンあたりの出力価格が大幅に安いにもかかわらず、多くのコーディング課題でほぼ同等の性能に近い例が示されています。
主な注意点は信頼性で、研究では小型モデルの「正解」が、実際には壊れた推論をたまたま通った結果である割合が大きい可能性が示されており、通常の精度スコアでは検出できないとされています。
その対策として（RAGなどの）補助的な仕組みが必要であり、小型モデルのエージェントには単なるベンチマーク上のスコアだけでなく、推論の妥当性を担保する工夫が求められることを示唆しています。

昨年6月、NVIDIAは「Small Language Models are the Future of Agentic AI（小型言語モデルはエージェント型AIの未来である）」と題するポジションペーパーを公開し、その主張は当時あっさりと流せるものだった。というのも、エージェントが実際に行うことの大半は、入力を読む、ツールを選ぶ、それを呼び出す、そして出力を整形するといった、華やかさとは無縁の作業であり、そのどれにも4000億パラメータ級のモデルは不要だからだ。提案は、その日常的な80%を小型で特化したモデルに任せ、本当に必要とされたタスクのときだけ、高価なフロンティアモデルへフォールバックする、というものだった。筋の良いアイデアだったにもかかわらず、ほとんど誰も実行しなかった。そして業界は、その1年の大半にわたって、結局すべてのエージェントの各ステップを、巨大な1つのモデルに通し続けていた。

今年の春に出たリリースは、この習慣を擁護するのをずっと難しくした。そこを「それっぽい」から「確定的」へ動かしたのが、次の数字だ:

Gemma 4 31B は、エージェントのツール使用ベンチマークである tau2-bench で 86.4% を記録している。前世代（Gemma 3 27B）は、まったく同じテストで 6.6% だった。たった1回のリリースで80ポイント以上も跳ねた要因は、サイズの飛躍ではなく、そのタスクを狙った学習にある。
Qwen3.6 27B は単体の RTX 4090 で動作しながら、それでも SWE-bench Verified で Alibaba 自身の 397B MoE を上回る。35B-A3B 版ではトークンごとに有効化されるのは 3B パラメータだけなのに、それでも MCP ベンチマークでフロンティア級のエージェントと足並みをそろえている。
Phi-4-reasoning は 14B モデルで、AIME において 70B の蒸留モデルと同等の成績を出す。
DeepSeek V4-Flash は、Claude Opus 4.6 が出力トークン100万あたり $25 なのに対し、$0.28 を提示している。つまり、コーディングタスクの多くでほぼ同等の成果に着地する作業について、約89倍も安い。

私がどの単一のベンチマークよりも興味深いと思うのは、このスタックがなぜデフォルトになっていないのか、という点だ。コストの計算は何か月も前から明白だった。正直な答えは、これを広めるのに最も適した人たちには、それをする理由がないということだ。フロンティア系のラボは、1つの巨大モデルをパー・トークン課金で貸し出して稼いでおり、エージェント用プラットフォームはたいていその同じモデルのラッパーにすぎない。そしてクラウドのキャパシティも、それに合わせて見積もられる。安い特化モデルの「群れ」によって得をする唯一の当事者は、月々の推論請求書を支払う顧客だが、顧客はポジションペーパーを書かない。NVIDIAがそれに前向きだったのは、どのアーキテクチャが勝とうが同社はハードウェアを売れるからだ。

小型モデル側には本当の落とし穴があり、今のセットアップを取り払う前に、そこに腰を据えて考える価値がある。Laksh Advani による1月の論文 "When Small Models Are Right for Wrong Reasons"（小型モデルが間違った理由で正しいとき） は、7〜9Bモデルの約10,000件の推論トレースを監査し、その正解の半分から3分の2が、実際には壊れている推論によって到達されたものだと見いだした。モデルは偶然として正しい数に着地してしまい、一般的な精度スコアリングではそれを検知する方法がない。では実際に何をすべきか——それが有用な部分だ:

RAG は助けになる: モデルを実在の根拠に基づけることで、推論の対象となる数値を作り出すことを止められるからだ。
自己批判は裏目に出る: 7〜9Bモデルに自分の仕事をチェックさせると、改善されるどころか推論は悪化した。信頼できる2回目のパスを行うだけの能力がないためだ。
蒸留された検証器が安価な解決策: Advani の分類器は 0.86 の F1 を達成し、完全な検証よりも約100倍高速に動く。これにより、研究レベルの贅沢として残すのではなく、プロダクションでプロセスのチェックを現実的なものにできる。

つまり、小型モデルのエージェントが何か機微なものに触れるなら、その精度スコアだけを信頼するのではなく、取得（リトリーバル）と検証レイヤーを組み合わせる必要がある。

完全なベンチマーク表を含む詳細な書き起こしはこちら: https://agenttape.com/articles/slm-agents-2026-empirical-case

自分でエージェントスタックを運用している人たちが、実際には何をしているのかに、私は主に関心がある。すでにモデルサイズごとに仕事を分割し始めた人はいるのだろうか。それとも、まだ1つのモデルがすべてを担当しているのだろうか？

submitted by /u/Celestialien
[link] [comments]