DepCap:効率的な拡散言語モデル推論のための適応的なブロック単位並列デコーディング

arXiv cs.LG / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 拡散言語モデルは並列デコードと系列全体のグローバルなリファインメントが可能だが、推論では生成品質とデコード速度のバランスが重要になる。
  • 既存のブロック単位DLMデコーディングは固定のブロックスケジュールや局所的な信号に依存しがちで、さらに確信度ベースの保守的な並列デコードがトレードオフを制限しうる。
  • DepCapは、ブロック境界の決定に「直前にデコードしたブロックの影響」を使うクロスステップ信号と、ブロック内の安全な並列デコードに「競合のないトークン部分集合」を用いることで、より適切な信号に基づく方針を提案する。
  • DepCapはトレーニング不要でプラグアンドプレイとして動作し、複数のDLMに適用でき、ブロック単位推論の既存KVキャッシュ戦略とも互換性がある。
  • 実験では複数のDLMバックボーンと推論・コーディングベンチマークで最大5.63×の高速化を示し、品質低下はほとんど見られないと報告されている(提案するブロック分割基準には情報理論的な根拠も付与)。

要旨: 拡散言語モデル(DLM)は、並列デコーディングの可能性や系列全体に対するグローバルな洗練によって、自己回帰的な言語生成に代わる有望な手法として注目を集めている。こうした可能性を解き放つには、DLM推論は生成品質とデコーディング速度のバランスを慎重に取る必要がある。近年のブロック単位のDLMデコーディング手法は、拡散に基づくデコーディングをブロックごとに逐次的に行うことで、このトレードオフを改善している。しかし既存の手法では、ブロック境界の決定に固定のブロックスケジュールや、現在ステップのローカルな信号に依存することが多く、競合を避けるために保守的な信頼度ベースの並列デコーディングを用いるため、品質と速度のトレードオフが制限される。本論文では、ブロック単位のDLM推論には、その2つの中核的な判断に対して、より適切な信号が必要であると主張する。すなわち、ブロック境界を決めるための跨ステップ信号と、並列デコーディングのためのトークンレベルの競合信号である。この観点に基づき、本論文では学習不要の効率的なブロック単位DLM推論のための枠組み DepCap を提案する。具体的には、DepCap は跨ステップ信号を「直前にデコードされた最後のブロックの影響」として具体化し、それを用いて次のブロックがどこまで延びるべきかを適応的に決定する。また、各ブロック内で安全な並列デコーディングを行うために、競合のないトークンの部分集合を同定し、それによって品質劣化をほぼ伴わずに大幅な推論加速を可能にする。DepCap は各種DLMに適用可能なプラグアンドプレイ手法であり、ブロック単位DLMに対する既存のKVキャッシュ戦略とも両立する。さらに情報理論的な分析により、候補ブロックに対する累積的な最後のブロック影響は、トークン間で概ね加法的であることが示され、提案するブロック分割基準を支持する。実験結果は、DepCap が複数のDLMバックボーンおよび推論・コーディングのベンチマークにおいて良好な速度-品質トレードオフを達成し、有意な性能劣化なしに最大 5.63\times のスピードアップを実現することを示している。