フロントドア・ルーティングに向けた小型言語モデルの評価:調和化されたベンチマークと合成トラフィック実験

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小型言語モデル(1〜4Bパラメータ)が「フロントドア・ルーティング」タスクの分類を、限界コストほぼゼロかつサブ秒レイテンシで処理できるほど、十分に高精度かつ高速になった可能性を論じており、推論予算におけるルーティングのオーバーヘッドは無視できるとしている。
  • Phi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを対象に、同一のAzure T4ハードウェア上で実施した調和化されたオフライン・ベンチマークを用いると、Qwen-2.5-3Bが最良の完全一致精度(0.783)と、最も強力なレイテンシ–精度のトレードオフを示し、さらに6つのタスクファミリすべてにおいて非ゼロの精度が確認される。
  • Phi-4-mini、Qwen-2.5-3B、DeepSeek-V3を「ルーティングなし」の対照群と比較する合成トラフィックのランダム化実験では、DeepSeek-V3が最高の精度(0.830)を達成する一方で、事前登録されたP95レイテンシ要件(2,295 ms)を満たせない。
  • 実験におけるセルフホスト選択肢の中では、Qwen-2.5-3Bがパレート優越(0.793精度、988 msの中央値レイテンシ、限界コストは0)しているが、テストされたいずれのモデルも、スタンドアロンの本番運用としての妥当性基準(精度≥0.85 かつP95レイテンシ≤2,000 ms)を満たしていない。
  • 著者らは、コストとレイテンシの前提条件は満たされているように見えるものの、残る6〜8ポイントの精度ギャップ、ならびに正しいルーティングが下流の出力品質を保証するかどうかという未解決の問いが、本番投入の準備状況を制限していると結論づけている。

Abstract

推論時に適切なモデルを選択する――ルーティング問題――では、出力品質、コスト、レイテンシ、ガバナンス制約を同時に最適化する必要がある。既存のアプローチは、この判断をLLMベースの分類器、または嗜好(preference)で訓練されたルータに委ねがちだが、それら自身が高コストで高レイテンシである。その結果、多目的最適化が単一の次元での品質予測に還元されてしまう。私たちは、小型言語モデル(SLM、1〜4Bパラメータ)が、サブ秒、ゼロの限界コスト、自己ホスト型のタスク分類に十分な推論能力を今や獲得しており、ルーティング判断が推論予算に占める負担は実質的に無視できる可能性があると主張する。2つの研究で、この仮説を6ラベルのタクソノミーで検証する。研究1は、Phi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを、同一のAzure T4ハードウェア、同一の提供(serving)スタック、同一の量子化、固定された60ケースのコーパスで行う、調整済みのオフラインベンチマークである。Qwen-2.5-3Bは、最良の完全一致精度(0.783)を達成し、最も強いレイテンシと精度のトレードオフを示し、さらに6つのタスクファミリーすべてで非ゼロの精度を唯一達成している。研究2は、事前登録済みの4腕ランダム化実験で、合成トラフィック下、各腕あたり60のユニークケースという有効サンプルサイズを用い、Phi-4-mini、Qwen-2.5-3B、DeepSeek-V3をルーティングなしの対照と比較する。DeepSeek-V3は最高精度(0.830)を得るが、事前登録済みのP95レイテンシゲート(2,295 ms)を満たせない。Qwen-2.5-3Bは、自己ホスト型モデルの間でパレート優越(Pareto-dominant)である(精度0.793、中央値988 ms、限界コスト$0)。どのモデルも単独での成立条件(>=0.85精度、<=2,000 ms P95)を満たさない。SLMベースのルーティングに必要なコストとレイテンシの前提は満たされているが、6〜8パーセンテージポイントの精度ギャップと、「正しい分類が下流の出力品質を保証するのか」という未検証の問いが残り、製品投入として成立するまでの距離が残っている。