SAGA：GPUクラスター上でAIエージェント推論を行うためのワークフロー原子的スケジューリング

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの各呼び出しを独立として扱うGPUスケジューラが中間状態（例：KVキャッシュ）を破棄してしまい、マルチステップのAIエージェント処理でエンドツーエンドのレイテンシが3〜8倍悪化する、と主張している。
個々の推論呼び出しではなく、エージェントのワークフロー全体（プログラム全体）を最初にスケジューリング可能な単位として扱う、ワークフロー／プログラムレベルのスケジューリングを提案している。
SAGAは、KVキャッシュの再利用を予測するAgent Execution Graphs、相関のあるリクエストを同一箇所にまとめるセッション・アフィニティ・バッチングとワークスティーリング、そして「Agent Fair Share」という公平性指標（偏差が有界）を用いている。
SWE-benchのコーディングエージェントとWebArenaのブラウザタスクを64-GPUクラスターで実行した結果、SAGAはvLLM v0.15.1に比べタスク完了時間を幾何平均で1.64×改善し、GPUメモリ利用も1.22×向上し、多テナント干渉下でSLO到達率99.2%を達成した。
レイテンシ改善の代償として、スループット最適なバッチングに比べピークスループットが約30%低下するが、複合AI利用の中心であるレイテンシ重視のインタラクティブ運用に適していると位置づけている。