ワークロード・ドリフト下のASR提供における処理時間認識型スケジューリング
arXiv cs.LG / 2026/3/13
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ASR提供におけるFCFSスケジューリングがリクエスト処理時間のばらつきによりヘッド・オブ・ライン・ブロッキングを生じ、ワークロードドリフト下でエンドツーエンド遅延を低下させることを指摘します。
- 音声の長さが Whisper などのモデル処理時間の正確な代理指標であることを示し、処理時間を考慮したスケジューリングを可能にします。
- vLLM 提供フレームワークにShortest Job First 及び Highest Response Ratio Next を組み込み、現実的かつドリフトを帯びたワークロードの下で評価しました。基準と比較して大幅な遅延削減とトレードオフを示します。
- SJF は高負荷時に中央値の E2E 遅延を最大で 73% 削減しますが、長いリクエストの飢餓を招き、90 パーセンタイルのテール遅延を最大で 97% 増加させます。
- HRRN は飢餓を緩和し、中央値の遅延を最大で 28% 削減するとともに、テール遅延の劣化を最大で 24% に抑えます。これらの利得はワークロードドリフト下でも持続し、スループットのペナルティはなく、リクエストあたりのスケジューリングオーバーヘッドは 0.1 ms 未満です。




