キャパシティを考慮した推論:SageMaker AIエンドポイントでの自動インスタンスフォールバック

Amazon AWS AI Blog / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Amazon SageMaker AIは、キャパシティが不足する場合に優先順位付きのインスタンスタイプのリストへ自動でフォールバックする「キャパシティ対応のインスタンスプール」を導入しました。
  • フォールバックは、エンドポイントの作成時だけでなく、スケールアウト時やスケールイン時にも自動的に適用され、手作業によるキャパシティ管理の手間を減らします。
  • 利用可能なAIインフラへ、ユーザーの介入なしで推論エンドポイントをプロビジョニングすることを目指した仕組みです。
  • この機能は、シングルモデルエンドポイント、推論コンポーネント型エンドポイント、非同期推論エンドポイントで利用できます。
本日、Amazon SageMaker AI は、新規および既存の推論エンドポイント向けに、キャパシティ対応のインスタンスプールを導入します。インスタンスのタイプの優先度付きリストを定義すると、作成時、スケールアウト時、スケールイン時にキャパシティが制約される状況でも、SageMaker AI がリストを自動的に順に処理します。これにより、手動による介入なしで、利用可能な AI インフラストラクチャ上にエンドポイントがプロビジョニングされます。この機能は、シングルモデルエンドポイント、推論コンポーネントベースのエンドポイント、および非同期推論 エンドポイントで利用できます。