AI Navigate

ワークロード・ドリフト下のASR提供における処理時間認識型スケジューリング

arXiv cs.LG / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ASR提供におけるFCFSスケジューリングがリクエスト処理時間のばらつきによりヘッド・オブ・ライン・ブロッキングを生じ、ワークロードドリフト下でエンドツーエンド遅延を低下させることを指摘します。
  • 音声の長さが Whisper などのモデル処理時間の正確な代理指標であることを示し、処理時間を考慮したスケジューリングを可能にします。
  • vLLM 提供フレームワークにShortest Job First 及び Highest Response Ratio Next を組み込み、現実的かつドリフトを帯びたワークロードの下で評価しました。基準と比較して大幅な遅延削減とトレードオフを示します。
  • SJF は高負荷時に中央値の E2E 遅延を最大で 73% 削減しますが、長いリクエストの飢餓を招き、90 パーセンタイルのテール遅延を最大で 97% 増加させます。
  • HRRN は飢餓を緩和し、中央値の遅延を最大で 28% 削減するとともに、テール遅延の劣化を最大で 24% に抑えます。これらの利得はワークロードドリフト下でも持続し、スループットのペナルティはなく、リクエストあたりのスケジューリングオーバーヘッドは 0.1 ms 未満です。

Abstract

大規模な自動音声認識(ASR)サービング・パイプラインにおけるスケジューリング方針は、エンドツーエンド(E2E)遅延を決定づける上で重要な役割を果たします。しかし、広く用いられているサービングエンジンは先入先出(FCFS)スケジューリングに依存しており、リクエスト処理時間のばらつきを無視するため、ワークロード・ドリフト下でヘッド・オブ・ライン・ブロッキングを引き起こします。我々は、Whisper のような ASR モデルにおいて音声の長さがジョブ処理時間の正確な代理指標であることを示し、この洞察を用いて処理時間を考慮したスケジューリングを可能にします。我々は2つの古典アルゴリズム、Shortest Job First (SJF) と Highest Response Ratio Next (HRRN) を vLLM に統合し、現実的かつドリフトを帯びたワークロードの下で評価します。LibriSpeech test-clean 上では、ベースラインと比較して、SJF は高負荷時に中央値の E2E 遅延を最大で 73% 削減しますが、長いリクエストの飢餓により 90 パーセンタイルの尾遅延が最大で 97% 増加します。HRRN はこのトレードオフに対処します:中央値の E2E 遅延を最大で 28% 削減しつつ、尾遅延の劣化を最大で 24% に抑えます。これらの利得はワークロード・ドリフト下でも持続し、スループットへのペナルティはなく、リクエストあたりのスケジューリングオーバーヘッドは 0.1 ms 未満です。