要旨: 現代のエンタープライズにおけるAIアプリケーションは、複合AIシステム──複数のモデル、リトリーバー、ツールを組み合わせて複雑なタスクを達成するアーキテクチャ──への依存をますます強めています。このようなシステムを本番環境にデプロイするには、低レイテンシでコスト効率を維持しつつ、同時かつ異種のモデル呼び出しを効率的に提供できる推論インフラが必要です。本論文では、Salesforceで開発されたモジュール化された、プラットフォーム非依存の推論アーキテクチャに関する本番デプロイ研究を提示します。本アーキテクチャは、Agentforce(自律型AIエージェント)やApexGuru(AIを活用したコード分析)を含む複合AIユースケースを支援することを目的としています。本システムは、サーバレス実行、動的オートスケーリング、ならびにMLOpsパイプラインを統合し、多コンポーネントのエージェントワークフローにわたって一貫した低レイテンシ推論を提供します。先行する静的デプロイと比較して、本番結果として、テールレイテンシ(P95)が50%以上低減され、スループットが最大3.9倍向上し、コストが30〜40%削減されたことを報告します。さらに、エージェンティックなワークロードを提供する際に特有に現れる、複合システム固有の課題についての新規な分析も示します。具体的には、マルチモデルのファンアウトに伴うオーバーヘッド、カスケードするコールドスタートの伝播、ならびに異種のスケーリングダイナミクスです。詳細なケーススタディと運用上の学びを通じて、本アーキテクチャが、モデル呼び出しを並列にスケールさせること、バースト性のあるマルチエージェントのワークロードを扱うこと、そして迅速なモデル反復を可能にすることを、複合AIシステムにどのように提供するかを説明します。これらの能力は、企業規模でエージェンティックAIを運用化するために不可欠です。
複合AIシステム向けのスケーラブル推論アーキテクチャ:プロダクション導入に関するデプロイメント調査
arXiv cs.AI / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数モデル・リトリーバ・ツールを組み合わせてタスクを実行する「複合AIシステム」を本番運用する際に、並行推論を効率的に扱いながら低遅延とコスト効率を両立する必要性を扱います。
- Salesforceで開発された、プラットフォーム非依存のモジュール型推論アーキテクチャとして、サーバレス実行・動的オートスケーリング・MLOpsパイプラインを組み合わせ、複数コンポーネントのエージェントワークフローを支える仕組みを示します。
- 生産環境での結果として、従来の静的デプロイメント比でテールレイテンシ(P95)が50%以上改善され、スループットは最大3.9倍、コストは30〜40%削減できたと報告されています。
- さらに、多段ファンアウトによるオーバーヘッド、コールドスタートの連鎖的な伝播、エージェント指向のワークロードに特有の不均一なスケーリング挙動といった複合システム固有の課題を分析します。
- 具体的な事例と運用上の学びから、モデル呼び出しを並列にスケールさせ、バースト的なマルチエージェント負荷を処理し、モデル反復を迅速化することで、企業規模のエージェントAIを運用可能にすることを示します。




