NVIDIAの新研究:NeMo RLに推測デコーディングを統合し、8Bでロールアウト生成を1.8倍高速化、235Bでは2.5倍のエンドツーエンド高速化を予測

MarkTechPost / 2026/5/2

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • NVIDIA Researchは、vLLMバックエンドを用いながらNeMo RLに推測デコーディングを直接統合する手法を提案した。
  • この手法は、8Bモデル規模で損失なし(lossless)のロールアウト生成において1.8倍の速度向上を達成したとされる。
  • さらに235Bというはるかに大きな規模では、エンドツーエンドで約2.5倍の高速化が見込めると予測している。
  • 本研究は、出力品質を損なわず(lossless)強化学習のロールアウト生成を高速化することに焦点を当てている。

NVIDIA Researchによる新しい論文が、vLLMバックエンドを用いて、推測デコーディングをNeMo RLに直接統合します。これにより、8Bおよび予測される235Bモデル規模の両方で、ロスレスなロールアウト加速を実現します。

この投稿 A New NVIDIA Research Shows Speculative Decoding in NeMo RL Achieves 1.8× Rollout Generation Speedup at 8B and Projects 2.5× End-to-End Speedup at 235B は、MarkTechPostに最初に掲載されました。