MLLM駆動のセンシング、通信、計算によるマルチロボットネットワークの発展：包括的サーベイ

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本記事は、マルチモーダル大規模言語モデル（MLLM）によって協調されるマルチロボットネットワークの包括的サーベイであり、実リソース制約のもとでロボットチームがセンシング、通信、計算をどのように共有するかに焦点を当てている。
マルチロボット協調を「意図からリソースへのオーケストレーション」問題として位置づけ、高レベルの自然言語による目標を用いて、センシング手段の選択、帯域幅の割り当て、計算を実行する場所の決定を行う。
本サーベイでは、オンデバイスのモデルとエッジ／クラウドサーバに推論を分散するエンドツーエンドのシステム設計を検討し、ロボットがリッチなマルチモーダルデータを送信する際にネットワークが過負荷になるといった実務上の制約に対処している。
デモンストレーションシナリオとして4つ（例：デジタルツイン倉庫のナビゲーション、事前対応型MCS制御、FollowMeによるセマンティックセンシング、実機を用いたオープン語彙のゴミ仕分け）を取り上げ、ペイロード、レイテンシ、成功といったシステムレベルの指標でアプローチを評価している。
要点として、MLLMによるオーケストレーションを通じてセンシング、通信、計算を共同最適化することで、オンデバイスのみのベースラインよりもタスク性能で優れる可能性があることが示される。

Abstract

多モーダル大規模言語モデル（MLLM）によって駆動される高度なヒューマノイドロボットを想像してみてください。これらのロボットが、倉庫物流、製造、安全救助といった産業横断でミッションを協調して遂行します。個々のロボットは局所的な自律性を示すものの、現実的な作業では、膨大なストリームのセンサーデータを共有する複数のエージェント間での協調が必要になります。通信は不可欠ですが、特に、システムレベルのオーケストレータやクラウドベースのMLLMが、経路計画や異常検出のために多モーダル入力を統合する場合には、包括的なデータを送信することがネットワークを圧迫しがちです。こうした作業は、多くの場合、高レベルの自然言語による指示によって開始されます。この意図は、資源最適化のためのフィルタとして機能します。MLLMによって目標を理解することで、システムは関連するセンシングモダリティを選択的に起動し、帯域幅を動的に割り当て、計算の配置場所を決定できます。したがって、R2Xは本質的に「意図から資源をオーケストレーションする」問題であり、タスクレベルの成功を資源制約下で最大化するために、センシング、通信、計算が共同で最適化されます。本調査では、統合設計がどのようにして、MLLMのガイダンスに基づくマルチロボット協調を実現する道を拓くのかを検討します。最先端のセンシングモダリティ、通信戦略、計算アプローチを概観し、推論がオンデバイスのモデルと強力なエッジ／クラウドサーバの間でどのように分割されるかを示します。また、4つのエンドツーエンドのデモンストレーション（sense -> communicate -> compute -> act）を提示します：（i）予測リンクコンテキストを用いたデジタルツイン倉庫ナビゲーション、（ii）モビリティ駆動の先回りMCS制御、（iii）セマンティックセンシングのスイッチを備えたFollowMeロボット、（iv）エッジ支援によるMLLMのグラウンディングを用いた、実機におけるオープンボキャブラリのゴミ分別。さらに、R2Xのオーケストレーションが、純粋にオンデバイスに依存するベースラインをなぜ上回るのかを示すために、ペイロード、レイテンシ、成功というシステムレベルの指標を重視します。