スケーラブルなAI推論：AIモデル提供（サービング）の性能分析と最適化

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、AIモデル開発と実運用での提供の間にある、デプロイ／推論が十分に扱われてこなかったギャップに取り組み、BentoMLベースの推論システムのスケーラブルなモデル提供を分析しています。
評価では、事前学習済みのRoBERTa感情分析モデルを用い、ガンマ分布および指数分布に基づくトラフィックパターンから、定常・バースト・高強度の3つのワークロード条件を作ってベースライン性能を測定します。
レイテンシーのパーセンタイルやスループットなどの主要指標を収集し、推論パイプライン内のボトルネックを特定します。
そのうえで、サービングスタックの複数レイヤーで最適化戦略を導入し、同一条件で再評価して、改善の効果を統計解析で定量化します。
さらに、負荷変動に対するレイテンシーとスループットのスケーリング特性や、単一ノードのK3sクラスタ上での運用が障害時の耐性に与える影響も検討しています。

Abstract

AI研究では、モデル設計やアルゴリズムの性能がしばしば重視されますが、現実の利用において不可欠であるにもかかわらず、デプロイや推論は比較的十分に調査されていません。本研究はそのギャップを埋めることを目的として、graphworks.aiとの共同により開発された、スケーラブルなモデル提供のためのBentoMLベースのAI推論システムの性能と最適化を調査します。評価ではまず、3つの現実的なワークロードシナリオにおけるベースライン性能を確立します。公平で再現可能な評価を行うため、実験全体を通じて事前学習済みのRoBERTa感情分析モデルを使用します。さらに、現実の利用状況を模擬するために、ガンマ分布および指数分布に従うトラフィックパターンのもとでシステムに負荷をかけ、定常的・バースト的・高強度のワークロードを含む条件を再現します。遅延のパーセンタイルやスループットといった主要な性能指標を収集・分析し、推論パイプラインにおけるボトルネックを特定します。ベースライン結果に基づき、効率とスケーラビリティを高めるために、提供スタックの複数のレベルで最適化戦略を導入します。その後、最適化されたシステムを同一のワークロード条件で再評価し、統計分析により、適用した改善がもたらした影響を定量化したうえでベースラインと比較します。得られた結果は、BentoMLによって効率的かつスケーラブルなAI推論を実現するための実践的な戦略を示しています。本研究では、さまざまなワークロードにおいて遅延とスループットがどのようにスケールするか、ランタイム・サービス・デプロイの各レベルでの最適化が応答時間にどのように影響するか、そして単一ノードのK3sクラスターへのデプロイが障害時のレジリエンスにどのように影響するかを検討します。