要旨: 大規模言語モデル(LLM)は、単体のテキスト生成器としてではなく、自律エージェントの実行コアとしてますます広く導入されるようになっています。エージェント型のワークロードは、シングルターン推論からマルチターンのLLM-ツール・ループへという時間的な変化を引き起こし、また、チャット規模でGPUのみを用いて実行する形態から、リポジトリ規模でGPU-CPUを同一箇所に配置して実行する形態へという空間的な変化を引き起こします。その結果、エージェント実行における異種のリソース要求を調整することが、重要なシステム課題として浮上しています。
私たちは、GPU-CPU資源の圧力が結合した状況下で、異種のエージェント型ワークロードをグローバルに協調制御する、効率的かつ適応的なコ・スケジューリングシステムMARSを設計し実装します。GPU推論とCPUツール実行の両方に関する全体的な可視性を、統一された情報ストリームによって確立することで、MARSの外部コントロールプレーンは、異種リソースの過剰サブスクリプションを防ぐために、受け入れ(admission)と実行(execution)を疎結合にします。さらに、内部のエージェント中心型スケジューラは、レイテンシに敏感な継続を優先し、ウォームな再開によってレイテンシ上の利得が得られる場合にのみKVキャッシュ状態を適応的に保持することで、エンドツーエンドのクリティカルパスを最小化します。評価の結果、MARSはシステムのスループットをほぼ最大のまま維持しつつ、エンドツーエンドのレイテンシを最大5.94倍低減できることを示しました。加えて、MARSをOpenHandsのコーディング・エージェントのサービング基盤として統合し、実環境での有効性を実証しました。具体的には、エンドツーエンドのタスク完了時間を最大1.87倍加速します。
私たちのソースコードは間もなく公開されます。
MARS:異種エージェント型システム向けの効率的・適応的コスケジューリング
arXiv cs.LG / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、LLMを自律エージェントの「実行コア」として使うことで、単発のGPU推論から、GPUとCPUにまたがるLLM–ツールのマルチターンループへとワークロードが変化する点を指摘しています。
- MARSは、GPUとCPUのリソース需要が連動する状況下で異種のエージェント実行を協調制御する、効率的で適応的なコスケジューリング基盤として提案・実装されています。
- MARSは、GPU推論とCPUのツール実行を単一の情報ストリームで可視化し、アドミッションと実行を切り離す外部制御プレーンにより、異種リソースの過剰投入(オーバーサブスクリプション)を防ぎます。
- さらに、エージェント中心の内部スケジューラが、レイテンシーに敏感な継続(continuations)を優先し、「ウォームな再開」で遅延改善が見込める場合に限ってKVキャッシュを保持することで、エンドツーエンドのクリティカルパスを短縮します。
- 評価では、エンドツーエンド遅延を最大5.94×削減しつつスループットをほぼ最大に維持でき、OpenHandsのコーディングエージェントに組み込むとタスク完了時間を最大1.87×短縮できたと報告しています。




