Speculative DecodingでPayPalのコマース・エージェントを加速:微調整NemotronモデルによるEAGLE3の実証研究

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • 本研究は、推論時最適化としてEAGLE3を用い、fine-tunedされたllama3.1-nemotron-nano-8B-v1モデルによりPayPalのCommerce Agentを加速することを評価しています。
  • 同一の2xH100環境で、vLLM上のEAGLE3をNVIDIA NIMと比較し、推測トークン数・同時実行数(1〜32)・サンプリング温度を含む40通りの条件でベンチマークしています。
  • gamma=3では、スループットが22〜49%向上し、レイテンシが18〜33%低下しつつ、受理率は条件を通じて概ね35.5%で安定しています。
  • gamma=5では効果の逓減が見られ、受理率は約25%まで低下します。
  • LLM-as-Judgeによる評価では出力品質が維持されたとされ、さらに単一H100での推測デコーディングが、2基のH100上のNIMと同等以上を達成でき、GPUコストを約50%削減できると報告しています。

Abstract

We evaluate speculative decoding with EAGLE3 as an inference-time optimization for PayPal's Commerce Agent, powered by a fine-tuned llama3.1-nemotron-nano-8B-v1 model. Building on prior work (NEMO-4-PAYPAL) that reduced latency and cost through domain-specific fine-tuning, we benchmark EAGLE3 via vLLM against NVIDIA NIM on identical 2xH100 hardware across 40 configurations spanning speculative token counts (gamma=3, gamma=5), concurrency levels (1-32), and sampling temperatures (0, 0.5). Key findings: (1) gamma=3 achieves 22-49% throughput improvement and 18-33% latency reduction at zero additional hardware cost; (2) acceptance rates remain stable at approximately 35.5% for gamma=3 across all conditions; (3) gamma=5 yields diminishing returns (approximately 25% acceptance rate); (4) LLM-as-Judge evaluation confirms fully preserved output quality; and (5) speculative decoding on a single H100 matches or exceeds NIM on two H100s, enabling 50% GPU cost reduction.