推測生成における並列プレフィックス検証

arXiv cs.AI / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、PARSE(PArallel pRefix Speculative Engine)を提案し、トークン単位の検証だけでなく意味的/セグメント単位でプレフィックス検証を行うことで、LLM推論を高速化します。
  • PARSEは、従来の意味的セグメント検証に伴うオーバーヘッドを、カスタムの注意マスクを用いて複数プレフィックスを並列に一度のフォワードパスで評価し、逐次的な検証なしに最大の有効プレフィックスを特定することで解消します。
  • この手法は、トークン単位の推測デコーディングとは直交的な設計であるため、他の手法と組み合わせることで追加の性能向上が見込めます。
  • 複数のモデルとベンチマークで、単体のターゲットモデル比で約1.25×〜4.3×のスループット向上が示され、EAGLE-3と組み合わせた場合は1.6×〜4.5×の向上が得られ、精度低下はごくわずかです。
  • 総じて、並列プレフィックス検証はLLM推論を加速するための汎用的で計算効率の高いアプローチとして位置づけられています。

Abstract

我々はPARSE(PArallel pRefix Speculative Engine)を導入する。PARSEは、意味レベルでのプレフィックス検証を並列化することで、大規模言語モデル(LLM)の推論を高速化する、推論的生成(speculative generation)フレームワークである。既存の推論的デコーディング手法は、本質的にトークンレベルの同一性によって制約されている。すなわち、ターゲットモデルは各トークンを検証する必要があるため、受理(acceptance)される長さが短くなり、速度向上も控えめにとどまる。意味レベルまたはセグメントレベルの検証へ移行すれば、受理の粒度を大幅に増やせる可能性があるが、従来のアプローチは逐次的な検証に依存しており、重要なオーバーヘッドを導入して実用的な利得を制限していた。PARSEは並列プレフィックス検証を導入し、逐次的なチェックなしに意味レベルの検証を可能にする。ドラフトモデルから得た完全なドラフトがある場合、ターゲットモデルは、カスタムのアテンションマスクを用いて単一のフォワードパスで複数のプレフィックスにわたる正しさを評価し、最大の有効プレフィックスを直接特定する。これにより逐次的なセグメント検証が不要になり、検証計算を効率化できる。PARSEはトークンレベルの推論的デコーディングとは直交しており、追加の利得のためにそれと組み合わせ可能である。複数のモデルおよびベンチマークにおいて、PARSEはターゲットモデルに対して1.25\timesから4.3\timesのスループット向上を実現し、さらにEAGLE-3と組み合わせた場合には1.6\timesから4.5\timesの向上を達成した。いずれも、精度の劣化はごくわずかである。これは、並列プレフィックス検証がLLM推論を高速化するための有効で汎用的な手法であることを示している。