Speculative DecodingでPayPalのコマース・エージェントを加速：微調整NemotronモデルによるEAGLE3の実証研究

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

共有:

要点

本研究は、推論時最適化としてEAGLE3を用い、fine-tunedされたllama3.1-nemotron-nano-8B-v1モデルによりPayPalのCommerce Agentを加速することを評価しています。
同一の2xH100環境で、vLLM上のEAGLE3をNVIDIA NIMと比較し、推測トークン数・同時実行数（1〜32）・サンプリング温度を含む40通りの条件でベンチマークしています。
gamma=3では、スループットが22〜49%向上し、レイテンシが18〜33%低下しつつ、受理率は条件を通じて概ね35.5%で安定しています。
gamma=5では効果の逓減が見られ、受理率は約25%まで低下します。
LLM-as-Judgeによる評価では出力品質が維持されたとされ、さらに単一H100での推測デコーディングが、2基のH100上のNIMと同等以上を達成でき、GPUコストを約50%削減できると報告しています。

Abstract

We evaluate speculative decoding with EAGLE3 as an inference-time optimization for PayPal's Commerce Agent, powered by a fine-tuned llama3.1-nemotron-nano-8B-v1 model. Building on prior work (NEMO-4-PAYPAL) that reduced latency and cost through domain-specific fine-tuning, we benchmark EAGLE3 via vLLM against NVIDIA NIM on identical 2xH100 hardware across 40 configurations spanning speculative token counts (gamma=3, gamma=5), concurrency levels (1-32), and sampling temperatures (0, 0.5). Key findings: (1) gamma=3 achieves 22-49% throughput improvement and 18-33% latency reduction at zero additional hardware cost; (2) acceptance rates remain stable at approximately 35.5% for gamma=3 across all conditions; (3) gamma=5 yields diminishing returns (approximately 25% acceptance rate); (4) LLM-as-Judge evaluation confirms fully preserved output quality; and (5) speculative decoding on a single H100 matches or exceeds NIM on two H100s, enabling 50% GPU cost reduction.

Black Hat USA

AI Business

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

Google Maps×生成AI──ストリートビューで“未来の風景”が見られる機能など追加、衛星画像の分析も大幅に短縮

Innovatopia

キヤノンITS、Bind Vision新機能公開｜静止画解析から現場オペレーション統合基盤へ

Innovatopia

AIエージェント組織活用の強固な基盤に──Vertex AI後継「Gemini Enterprise Agent Platform」とは

ITmedia AI+

Speculative DecodingでPayPalのコマース・エージェントを加速：微調整NemotronモデルによるEAGLE3の実証研究

要点

Abstract

関連記事

Black Hat USA

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

Google Maps×生成AI──ストリートビューで“未来の風景”が見られる機能など追加、衛星画像の分析も大幅に短縮

キヤノンITS、Bind Vision新機能公開｜静止画解析から現場オペレーション統合基盤へ

AIエージェント組織活用の強固な基盤に──Vertex AI後継「Gemini Enterprise Agent Platform」とは

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer