Rocks, Pebbles and Sand: マルチモーダル大規模言語モデル推論のためのモダリティ対応スケジューリング

arXiv cs.AI / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLM推論ワークロード（テキスト、画像、動画）は必要とするリソースが大きく異なるため、テキスト最適化のシステムで提供するとレイテンシスパイクやヘッド・オブ・ライン・ブロッキングが発生しやすいと主張している。
「モダリティをワークロードサイズとして扱う」という単純な抽象化を導入する—動画を“rocks（岩）”、画像を“pebbles（小石）”、テキストを“sand（砂）”として位置づけ、スケジューリング判断の指針とする。
提案手法のRPS-Serveはモダリティ対応スケジューラであり、リクエストを分類し、動的に優先度を調整し、重いワークロードの飢餓（starvation）を防ぐためにaging（経時的優先度調整）を用いる。
最先端のMLLMに対する実験では、RPS-Serveは平均のTTFT（time-to-first-token、最初のトークンまでの時間）を全体で54%削減し、レイテンシに敏感なリクエストでは78.5%削減したことを示している。
本研究は、これによりマルチモーダルLLMに対してより“LLMらしい”インタラクティブな応答性を実現しつつ、全体のリソース利用効率も向上できると位置づけている。

Abstract

マルチモーダル大規模言語モデル（MLLMs）は、ChatGPT、Gemini、Copilot のようなプラットフォームを支え、テキスト、画像、動画とのより豊かな対話を可能にします。これらの異種ワークロードは、視覚の前処理やエンコーディングのような追加の推論段階を導入し、レイテンシとメモリ需要を増大させます。テキストのみのワークロード向けに最適化された既存の LLM サービングシステムは、マルチモーダリティに対しては機能しません。大きな要求（例：動画）がリソースを独占し、その結果、深刻な先頭ブロッキング（head-of-line blocking）が発生し、性能が低下します。我々の重要な洞察は、マルチモーダル要求はリソース需要が桁違いに異なるという点です。これを簡単な抽象化で捉えます。すなわち、動画は岩のように振る舞い、画像は小石のように、テキストは砂のように振る舞うのです。私たちは RPS-Serve（モダリティを意識したスケジューラ）を設計し、砂が小石や岩を素早く通過できるようにします。これにより、飢餓を回避しつつ、インタラクティブな応答性を確実にします。RPS-Serve は要求を分類し、動的に優先度を付与し、飢餓を防ぐためにエイジングを適用します。最先端の MLLM にわたる評価では、RPS-Serve は現在のシステムと比べて、平均で time-to-first-token（TTFT）を全体として 54% 削減し、レイテンシ重視の要求では 78.5% 削減することを示しました。RPS-Serve は、モダリティを意識したスケジューリングと、利用可能なリソースを最も効率よく活用することによって、MLLM に対して LLM らしい応答性を提供します。