倉庫自動化における生涯マルチエージェント経路探索のための学習ガイド付き優先順位計画
arXiv cs.RO / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、倉庫自動化に向けた生涯マルチエージェント経路探索(Lifelong Multi-Agent Path Finding: MAPF)を対象とし、長期的かつ動的な状況下で競合のないマルチロボットの経路計画を維持することで、全体のスループット向上を目指す。
- 強化学習と古典的なRolling Horizon Prioritized Planningを組み合わせた枠組み「RL-RH-PP」を提案し、探索を完全に置き換えるのではなく、時間の経過に伴う学習ベースの優先順位付けを用いる。
- 本手法は、動的な優先順位付けを部分観測マルコフ決定過程(Partially Observable Markov Decision Process: POMDP)として定式化し、注意機構ベースの自己回帰型ニューラルネットワークにより、逐次的な単一エージェント計画のための優先順位順序をその場でデコードする。
- 実現的な倉庫シミュレーションでの実験では、RL-RH-PPがベースラインに対して総スループットが最も高いこと、さらにエージェント密度、計画ホライズン、倉庫レイアウトの異なる条件間で汎化することが報告されている。
- 解釈的分析により、学習された優先順位ポリシーは、混雑したエージェントを優先し、交通の流れを緩和する方向へ誘導することで、混雑を先回りして制御することが示唆される。