抽象: 大規模な移動ロボット群のための協調と計画を支える基盤モデルのスイートであるDeepFleetを提案します。これらのモデルは、世界中のAmazonの倉庫において数十万台規模のロボットから得られた、ロボットの位置、目標、相互作用を含む群の移動データで学習されています。DeepFleetは4つのアーキテクチャから構成され、それぞれが異なる帰納バイアスを体現し、マルチエージェント基盤モデルの設計空間における重要な論点を総合的に探索します。ロボット中心(RC)モデルは、個々のロボットの近傍に対して動作する自己回帰型の決定トランスフォーマーです。ロボット床(RF)モデルは、ロボットと倉庫の床との間のクロスアテンションを備えたトランスフォーマーを用います。画像床(IF)モデルは、全ロボット群を表すマルチチャネル画像表現に畳み込みエンコーディングを適用します。そしてグラフ床(GF)モデルは、時間的アテンションとグラフニューラルネットワークを組み合わせて、空間的な関係を扱います。本論文では、これらのモデルを説明し、これらの設計上の選択が予測タスクの性能に与える影響について評価を示します。ロボット中心モデルとグラフ床モデルは、いずれも非同期のロボット状態更新を用い、ロボット相互作用の局所構造を取り込んでいるため、最も有望であることが分かりました。また、これら2つのモデルがスケールアップされるにつれて、より大規模な倉庫の運用データセットを効果的に活用できることを示す実験も提示します。
DeepFleet:モバイルロボットのためのマルチエージェント基盤モデル
arXiv cs.RO / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- DeepFleetは、大規模なモバイルロボット群を協調制御し計画するための一連の基盤モデルを提案している。Amazonの数十万台規模のロボットによる倉庫内フリートの移動データで学習される。
- 本研究では、異なる帰納バイアスを持つ4つのモデル・アーキテクチャを検討する。具体的には、ロボット中心の意思決定トランスフォーマーネイバーフッド、倉庫フロアに対するロボット・フロア間クロスアテンション、フリート状態をマルチチャンネル画像として表現する画像・フロアの畳み込みエンコーディング、そしてグラフフロア上での時間的アテンションとグラフニューラルネットワークの組み合わせである。
- 評価では、アーキテクチャ設計上の選択がタスク横断での予測性能にどのように影響するかを調べ、非同期な更新と局所的な相互作用構造により、ロボット中心およびグラフフロア方式が最も有望であることを示す。
- スケーリング実験では、ロボット中心モデルとグラフフロアモデルが、より大規模な倉庫運用データセットの恩恵を受けることが示され、データ量とモデル規模が増えるほど有効性が高まる。




