Abstract
我々はPARSE(PArallel pRefix Speculative Engine)を導入する。PARSEは、意味レベルでのプレフィックス検証を並列化することで、大規模言語モデル(LLM)の推論を高速化する、推論的生成(speculative generation)フレームワークである。既存の推論的デコーディング手法は、本質的にトークンレベルの同一性によって制約されている。すなわち、ターゲットモデルは各トークンを検証する必要があるため、受理(acceptance)される長さが短くなり、速度向上も控えめにとどまる。意味レベルまたはセグメントレベルの検証へ移行すれば、受理の粒度を大幅に増やせる可能性があるが、従来のアプローチは逐次的な検証に依存しており、重要なオーバーヘッドを導入して実用的な利得を制限していた。PARSEは並列プレフィックス検証を導入し、逐次的なチェックなしに意味レベルの検証を可能にする。ドラフトモデルから得た完全なドラフトがある場合、ターゲットモデルは、カスタムのアテンションマスクを用いて単一のフォワードパスで複数のプレフィックスにわたる正しさを評価し、最大の有効プレフィックスを直接特定する。これにより逐次的なセグメント検証が不要になり、検証計算を効率化できる。PARSEはトークンレベルの推論的デコーディングとは直交しており、追加の利得のためにそれと組み合わせ可能である。複数のモデルおよびベンチマークにおいて、PARSEはターゲットモデルに対して1.25\timesから4.3\timesのスループット向上を実現し、さらにEAGLE-3と組み合わせた場合には1.6\timesから4.5\timesの向上を達成した。いずれも、精度の劣化はごくわずかである。これは、並列プレフィックス検証がLLM推論を高速化するための有効で汎用的な手法であることを示している。