Speculative DecodingでPayPalのコマース・エージェントを加速:微調整NemotronモデルによるEAGLE3の実証研究
arXiv cs.LG / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research
要点
- 本研究は、推論時最適化としてEAGLE3を用い、fine-tunedされたllama3.1-nemotron-nano-8B-v1モデルによりPayPalのCommerce Agentを加速することを評価しています。
- 同一の2xH100環境で、vLLM上のEAGLE3をNVIDIA NIMと比較し、推測トークン数・同時実行数(1〜32)・サンプリング温度を含む40通りの条件でベンチマークしています。
- gamma=3では、スループットが22〜49%向上し、レイテンシが18〜33%低下しつつ、受理率は条件を通じて概ね35.5%で安定しています。
- gamma=5では効果の逓減が見られ、受理率は約25%まで低下します。
- LLM-as-Judgeによる評価では出力品質が維持されたとされ、さらに単一H100での推測デコーディングが、2基のH100上のNIMと同等以上を達成でき、GPUコストを約50%削減できると報告しています。


