スケーラブルなAI推論:AIモデル提供(サービング)の性能分析と最適化
arXiv cs.LG / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、AIモデル開発と実運用での提供の間にある、デプロイ/推論が十分に扱われてこなかったギャップに取り組み、BentoMLベースの推論システムのスケーラブルなモデル提供を分析しています。
- 評価では、事前学習済みのRoBERTa感情分析モデルを用い、ガンマ分布および指数分布に基づくトラフィックパターンから、定常・バースト・高強度の3つのワークロード条件を作ってベースライン性能を測定します。
- レイテンシーのパーセンタイルやスループットなどの主要指標を収集し、推論パイプライン内のボトルネックを特定します。
- そのうえで、サービングスタックの複数レイヤーで最適化戦略を導入し、同一条件で再評価して、改善の効果を統計解析で定量化します。
- さらに、負荷変動に対するレイテンシーとスループットのスケーリング特性や、単一ノードのK3sクラスタ上での運用が障害時の耐性に与える影響も検討しています。




