AI Navigate

スロー-ファスト推論: 文内サポート安定性によるトレーニング不要の推論加速

arXiv cs.LG / 2026/3/13

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • Slow-Fast Inference (SFI) は、生成を、高速ステップとコンパクトなスパースメモリを用いた高速ステップと、意味的境界の近くで広い文脈を再訪するスロー・ステップに分割する、トレーニング不要のデ코ーディング戦略を提案する。
  • 高速ステップは、効率的なデコードを提供するためにコンパクトなスパースメモリを再利用し、スロー・ステップは Selector を用いて広い文脈を再評価し、以降の高速ステップのためのメモリを更新する。
  • 長い文脈と長いCoT設定において、SFI は約1.6倍〜14.4倍のデコード・スループットを提供する一方で、通常は full-KV ベースラインと同等の品質を維持する。
  • SFI は再訓練不要で既存のチェックポイントと直接適用できるため、長文脈・長期的なワークロードにおける現代の自己回帰推論モデルの推論コストを削減する実用的な道を提供する。
長い文脈を持つ自己回帰デコーディングは、各デコードステップが増大する履歴を繰り返し処理する必要があるため、依然として高コストである。我々はデコード中に一貫したパターンを観察する。文の内部、より一般的には短く意味的に整合した区間内では、支配的なアテンションのサポートはしばしばほとんど安定している。この観察に基づき、トレーニング不要のデコーディングフレームワークである Slow-Fast Inference (SFI) を提案する。生成を頻繁な低コストの高速ステップと、時折の高密度アテンションを伴うスロー・ステップに分離する。高速ステップは、効率的なデコードのためにコンパクトなスパースメモリを再利用する。スロー・ステップは意味的境界の近くでトリガーされる。スロー・ステップでは、モデルはより広い文脈を再訪し、選択されたメモリを次の高速ステップのためにリフレッシュするために Selector を使用する。評価された文脈長にわたって、SFI は約1.6倍〜14.4倍のデコード・スループットを提供し、長い文脈および長いCoT 設定において、通常は full-KV ベースラインと同等の品質を維持する。SFI はトレーニング不要で既存のチェックポイントに直接適用できるため、長文脈・長期的・エージェント性を持つワークロードにおける現代の自己回帰推論モデルの推論コストを削減する実用的な道を提供する。