StreamWise:リアルタイムかつ大規模にマルチモーダル生成を提供するシステム

arXiv cs.AI / 2026/3/9

Developer Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • StreamWiseは、言語、音声、画像、動画モデルを統合し、大規模なリアルタイムマルチモーダル生成ワークフローを可能にするために設計されたモジュラーで適応的なサービングシステムです。
  • このシステムは、大規模言語モデル、テキスト読み上げ、動画・音声生成を組み合わせたリアルタイムポッドキャスト動画生成を通じて実証されています。厳しいレイテンシーおよびリソース制約下で動作します。
  • StreamWiseは、画質、モデル並列処理、および異種ハードウェア上でのリソース認識スケジューリングを動的に管理し、レイテンシー、コスト、出力品質のトレードオフを最適化します。
  • チームはコストと速度のトレードオフをベンチマークし、低コストGPUセットアップでは10分の動画生成に1.4時間かかる一方で、StreamWiseはサブ秒の起動遅延とリアルタイムストリーミングを45ドル未満で実現できることを示しました。
  • 本研究はリアルタイムのマルチモーダル生成ワークロードの提供における複雑な課題に取り組み、自動メディア合成からストーリーテリングまでの応用を促進します。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →