Rocks, Pebbles and Sand: マルチモーダル大規模言語モデル推論のためのモダリティ対応スケジューリング
arXiv cs.AI / 2026/3/30
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLM推論ワークロード(テキスト、画像、動画)は必要とするリソースが大きく異なるため、テキスト最適化のシステムで提供するとレイテンシスパイクやヘッド・オブ・ライン・ブロッキングが発生しやすいと主張している。
- 「モダリティをワークロードサイズとして扱う」という単純な抽象化を導入する—動画を“rocks(岩)”、画像を“pebbles(小石)”、テキストを“sand(砂)”として位置づけ、スケジューリング判断の指針とする。
- 提案手法のRPS-Serveはモダリティ対応スケジューラであり、リクエストを分類し、動的に優先度を調整し、重いワークロードの飢餓(starvation)を防ぐためにaging(経時的優先度調整)を用いる。
- 最先端のMLLMに対する実験では、RPS-Serveは平均のTTFT(time-to-first-token、最初のトークンまでの時間)を全体で54%削減し、レイテンシに敏感なリクエストでは78.5%削減したことを示している。
- 本研究は、これによりマルチモーダルLLMに対してより“LLMらしい”インタラクティブな応答性を実現しつつ、全体のリソース利用効率も向上できると位置づけている。



