要旨: 機械学習(ML)推論サービングシステムは、深層ニューラルネットワーク(DNN)モデルをホストし、デプロイされたGPU全体に対して到着する推論リクエストをスケジューリングする。しかし、タスク優先度付けに対する限定的なサポートや、同時実行下での不十分なレイテンシ推定により、オンプレミス環境での適用可能性が制限される可能性がある。私たちは、高いGPU利用率のもとでデュアル優先度の推論トラフィックに対する期限遵守を強化することを目的としたサービングシステムStraitを提示する。レイテンシ推定を改善するために、Straitはデータ転送中に発生しうる競合をモデル化し、適応的な予測モデルを通じてカーネル実行による干渉を考慮する。これらの予測に基づいて、優先度を意識したスケジューリングを行い、差別化された取り扱いを実現する。過酷なワークロードにおける評価結果は、Straitが低優先度タスクに対して許容可能なコストを負担しつつ、高優先度タスクの期限違反を1.02〜11.18パーセンテージポイント低減することを示している。ソフトウェア定義のプリエンプション手法と比べて、Straitはまた、より公平な性能を示す。
Strait:ML推論サービングにおける優先度と干渉の認識
arXiv cs.LG / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- Straitは、GPU使用率が高い状況でも二段階の優先度トラフィックの期限(デッドライン)達成を高めることを目的としたML推論サービングシステムとして提案されています。
- データ転送中の競合の可能性をモデル化し、カーネル実行における干渉を適応的な予測モデルで捉えることで、レイテンシ推定を改善します。
- これらの予測に基づいてStraitは優先度を考慮したスケジューリングを行い、高優先度と低優先度の推論リクエストを差別化して扱います。
- 厳しい負荷条件での評価では、高優先度タスクのデッドライン違反を1.02〜11.18ポイント減らしつつ、低優先度側のコストは許容範囲に抑えられることが示されています。
- ソフトウェア定義によるプリエンプション手法と比べて、Straitはより公平なパフォーマンスを示します。




