要旨: 共通の解法構造を共有する一方で、出力スキーマ、変数名、数値定数などの局所的な制約が異なる、LLMサービングのワークロードに取り組みます。従来の事前キャッシュ手法では、一般に、完全応答(セマンティックキャッシュ)か、モデル内部のKV/プレフィックス状態のいずれかを再利用してきました。しかし、これらはそれぞれ部分的な変更に対して脆く、また特定のバックエンドに強く結び付いているために堅牢性がありません。本稿では、出力を順序付けられた手順へと分割し、最も適合するキャッシュ済みリクエストを取得し、軽量なタスク認識チェックによって各手順を検証し、失敗した領域のみを選択的パッチ適用によって再生成する、バックエンド非依存のステップ単位再利用レイヤであるStepCacheを提案します。StepCacheは、JSONに対する厳格な構造化出力の強制(単一手順の抽出、必須キー制約、一発(ワンショット)の修復)に加え、セマンティックな変更に対する保守的なスキップ再利用のフォールバックもサポートします。線形方程式においては、StepCacheは、境界付きの修復ループと決定論的なフォールバックによって、バックエンドのモデルが失敗した場合でも正しさを保証しつつ、検証を修正へと昇格させます。
数学およびJSONのバリアントに対する、CPUのみの摂動(パーティュベーション)が多いマイクロベンチマークで、3つのシードにわたって平均を取った結果、StepCacheは平均レイテンシを2.13 sから0.67 sへ、中央値レイテンシを2.42 sから0.01 sへ、p95レイテンシを3.38 sから3.30 sへ低減します。また、総トークン使用量を36.1kから27.3kへ削減し、タスク固有のチェックと、縫い合わせた出力の整合性チェックの下で、エンドツーエンドの正確性を72.5%から100%へ改善します。リクエスト全体では、79.7%が再利用のみの高速パスを取り、5.4%がパッチ適用を要し、14.9%が再利用のスキップをトリガーします。
StepCache:軽量な検証と選択的パッチ適用によるLLMサービングのステップ単位リユース
arXiv cs.AI / 2026/4/1
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- StepCacheは、プロンプトが解決の構造は共通している一方で、ローカルな制約(例:スキーマ、名前、定数)が異なる場合に、LLMサービングでキャッシュ済みのリクエスト「ステップ」を再利用する、バックエンド非依存のステップ単位リユース層である。
- 最も適合するキャッシュ済みリクエストを取得し、再利用する各ステップをタスクに応じた軽量な検証で確認したうえで、失敗した領域のみを選択的パッチ適用によって再生成する。
- StepCacheは、JSONに対する厳格な構造化出力の強制(必須キー制約やワンショット修復を含む)に対応し、また意味的な変更が検出された場合には、保守的なスキップ再利用のフォールバックも備える。
- 線形方程式のようなタスクでは、検証を境界付きの修正/修復ループに統合し、バックエンドのモデルが失敗した場合でも正しさを保証する決定論的フォールバックを用いる。
- CPUのみで、摂動が多いマイクロベンチマーク(数式およびJSONバリアント)において、StepCacheは平均/中央値/p95のレイテンシとトークン使用量を大幅に削減しつつ、タスク固有の「ステッチされた整合性」チェックによって正解率を72.5%から100%へ改善する。




