要旨: 大規模言語モデルは目覚ましい性能を達成する一方で、計算コストが大きく、リソース制約のある環境への導入には不適です。本論文では、5つの多様なNLPタスクにわたって16の言語モデルを比較する、最初の包括的なタスク特化型の効率性分析を提示します。正確性、スループット、メモリ、レイテンシを幾何平均による正規化を通じて統合する、新しい指標であるパフォーマンス効率比(PER)を提案します。体系的な評価の結果、(0.5~3Bパラメータの)小規模モデルが、提示されたすべてのタスクにおいて優れたPERスコアを達成することがわかりました。これらの知見は、わずかな精度向上よりも推論効率を優先する製品環境において小規模モデルを導入するための定量的な基盤を確立します。
タスク特化型効率分析:小規模言語モデルが大規模言語モデルを上回るとき
arXiv cs.CL / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、精度そのものだけでなく、リソース制約下での導入におけるトレードオフに焦点を当て、5つのNLPタスクに対して16の言語モデルを対象にタスク固有の効率比較を行う。
- Accuracy(精度)、Throughput(スループット)、Memory(メモリ)、Latency(遅延)を、幾何平均による正規化を通じて統合する指標として、Performance-Efficiency Ratio(PER)を導入する。
- 結果として、0.5B〜3Bパラメータの範囲にある小規模言語モデルは、評価したすべてのタスクにおいてPERの点でより大きなモデルを上回ることが示される。
- 本研究は、生産現場の意思決定に向けた定量的な指針を提供し、大規模モデルによる限界的な精度向上が計算コストに見合わない場合には、小規模モデルを優先して推論効率を高められると提案する。




