Sequential Monte Carloによる高速LLM推論

arXiv cs.LG / 2026/4/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、通常の推論で起きる「ドラフトモデルとターゲットモデルの乖離によるスループット低下」を改善するため、Sequential Monte Carlo Speculative Decoding（SMC-SD）を提案する。
SMC-SDは、最初の不一致でドラフトを打ち切る（拒否する）代わりに、ドラフト粒子の集団を再重み付けし、重要度付きリサンプリングで扱うことで拒否を近似推論へ置き換える。
厳密さを一部犠牲にして速度を得る設計でありつつ、1ステップあたりの近似誤差に関する理論的な上界を保持する。
LLM推論はメモリ帯域に律速になりやすいため、SMC-SDはアイドル計算資源を活用して検証をベクトル化された固定サイズの並列処理に変換し、ロールバックなしで実行する。
実験では、SMC-SDが通常のspeculative decodingに対して2.36倍、自己回帰（autoregressive）推論に対して5.2倍の高速化を達成し、推論・指示追従・コーディングの各ベンチマークでターゲットモデル精度の3%以内に収まることを示している。

要旨: 推測的デコーディング（SD）は、安価な提案モデルからトークンを下書きし、それらをリジェクション・サンプリングによって高価なターゲットモデルで検証することで、大規模言語モデルの推論を高速化します。リジェクションは最初の誤りで下書きブロックを途中で打ち切るため、下書きモデルとターゲットモデルが乖離するとスループットが低下します。そこで、下書きトークンをそのまま一律に拒否するのではなく、これらに重み付けを行うことを提案します。そのために、逐次モンテカルロによる推測的デコーディング（SMC-SD）を導入します。これは、トークン単位の拒否をやめ、下書き粒子の母集団に対して重要度付きの再サンプリングを行うことで置き換えます。SMC-SDは、厳密さを追加の速度と引き換えにする原理に基づく近似推論手法であり、各ステップの近似誤差に関する理論的な上界を保ったまま動作します。LLMの推論はメモリ帯域に律速されるため、粒子を下書きするために必要な算術演算や、それらを並列にスコアリングするために必要な算術演算は、ほぼコストがかかりません。SMC-SDは、アイドル状態の計算資源を用いて検証をベクトル化された固定サイズ操作に変換し、ロールバックなしで実行します。実験的に、SMC-SDは推測的デコーディングに対して2.36倍の速度向上を達成し、自己回帰的デコーディングに対しては5.2倍の速度向上を達成します。また、推論・命令追従・コーディングのベンチマークにおいて、ターゲットモデルの精度から3%以内に収まっています。

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

Reddit r/LocalLLaMA

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

Sequential Monte Carloによる高速LLM推論

要点

関連記事

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer