フロントドア・ルーティングに向けた小型言語モデルの評価:調和化されたベンチマークと合成トラフィック実験
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、小型言語モデル(1〜4Bパラメータ)が「フロントドア・ルーティング」タスクの分類を、限界コストほぼゼロかつサブ秒レイテンシで処理できるほど、十分に高精度かつ高速になった可能性を論じており、推論予算におけるルーティングのオーバーヘッドは無視できるとしている。
- Phi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを対象に、同一のAzure T4ハードウェア上で実施した調和化されたオフライン・ベンチマークを用いると、Qwen-2.5-3Bが最良の完全一致精度(0.783)と、最も強力なレイテンシ–精度のトレードオフを示し、さらに6つのタスクファミリすべてにおいて非ゼロの精度が確認される。
- Phi-4-mini、Qwen-2.5-3B、DeepSeek-V3を「ルーティングなし」の対照群と比較する合成トラフィックのランダム化実験では、DeepSeek-V3が最高の精度(0.830)を達成する一方で、事前登録されたP95レイテンシ要件(2,295 ms)を満たせない。
- 実験におけるセルフホスト選択肢の中では、Qwen-2.5-3Bがパレート優越(0.793精度、988 msの中央値レイテンシ、限界コストは0)しているが、テストされたいずれのモデルも、スタンドアロンの本番運用としての妥当性基準(精度≥0.85 かつP95レイテンシ≤2,000 ms)を満たしていない。
- 著者らは、コストとレイテンシの前提条件は満たされているように見えるものの、残る6〜8ポイントの精度ギャップ、ならびに正しいルーティングが下流の出力品質を保証するかどうかという未解決の問いが、本番投入の準備状況を制限していると結論づけている。



