ES-dLLM: 早期スキップによる拡散型大規模言語モデルの効率的推論

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは拡散型大規模言語モデル（dLLMs）を分析し、中間表現（キー、値、隠れ状態）は連続する反復の間で僅かにしか変化しないことを見出し、計算量削減の潜在性を示唆している。
学習を必要としない推論加速フレームワーク ES-dLLM を提案し、中間テンソルの変動と前回の反復からの信頼度スコアに基づいて推定されたトークン重要度を用いて初期層でトークンをスキップして計算を削減する。
LLaDA-8B および Dream-7B の実験では、ES-dLLM が NVIDIA H200 上でそれぞれ 226.57 および 308.51 トークン/秒（TPS）を達成し、ベース推論に対して 5.6倍〜16.8倍の速度アップ、最先端のキャッシング手法に対して最大 1.85倍の速度アップを実現しつつ、生成品質を維持する。
学習不要アプローチは、計算を大幅に削減し、拡散ベースの LLM のより効率的なデプロイを可能にする。

本文: arXiv:2603.10088v1 発表タイプ: cross 要旨: 拡散型大規模言語モデル（dLLMs）は、双方向の文脈を捉え、並列生成の可能性があるため、自己回帰モデル（ARMs）に代わる有望な選択肢として浮上しています。利点にもかかわらず、dLLM 推論は全入力コンテクストが各反復で処理されるため、計算コストが高いままです。本研究では dLLM の生成ダイナミクスを分析し、キー、バリュー、隠れ状態を含む中間表現が連続する反復を通じてわずかにしか変化しないことを発見しました。この洞察を活用し、トレーニング不要の dLLM 推論加速フレームワークである \textbf{ES-dLLM} を提案します。推定された重要度に基づいて初期層でトークンをスキップすることにより、計算を削減します。トークン重要度は、中間テンソルの変動と前回の反復の信頼度スコアを用いて計算されます。LLaDA-8B および Dream-7B の実験は、ES-dLLM が NVIDIA H200 GPU 上で最大 226.57 および 308.51 トークン/秒（TPS）を達成し、従来実装に対して 5.6倍〜16.8倍のスピードアップ、最先端のキャッシング手法に対して最大 1.85倍のスピードアップを提供しつつ、生成品質を維持します。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

ES-dLLM: 早期スキップによる拡散型大規模言語モデルの効率的推論

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer