概要: 大規模または時間的制約の厳しい状況(例:環境モニタリング、捜索救助)における情報収集では、限られた時間予算の中で広範なカバレッジが必要となり、多剤(マルチエージェント)システムの利用が動機づけられる。これらの状況は一般に、多剤間情報経路計画(MAIPP)として定式化され、複数のエージェントが、予算制約のもとで情報獲得量を最大化するために協調しなければならない。MAIPPにおける中心的な課題は、環境に対する信念が到来する観測によって更新されていく中で、効果的な協調を確実に行うことである。近年の学習ベースのアプローチでは、協調を支えるために将来位置に関する分布を「意図」として用いることで、この問題に対処している。しかし、これらの自己回帰的な意図予測器は計算コストが高く、誤差が累積しやすいという欠点がある。拡散モデルが表現力豊かな長期ホライズンの方策として有効であることに着想を得て、本研究では、非自己回帰的に長期の軌跡を生成するために拡散モデルを活用した、完全分散型のMAIPPフレームワークであるAIDを提案する。AIDはまず、既存のMAIPPプランナによって生成された軌跡に対して行動模倣(behavior cloning)を行い、その後、Diffusion Policy Policy Optimization(DPPO)による強化学習を用いて方策を微調整する。この二段階のパイプラインにより、方策は専門家の行動を継承しつつ、オンラインの報酬フィードバックによってより良い協調を学習できる。実験の結果、AIDは学習元のMAIPPプランナに対して一貫して性能を向上させ、実行が4倍高速化し、情報獲得量が最大17%増加することを示した。さらに、エージェント数を増やしても効果的にスケールする。実装は https://github.com/marmotlab/AID で公開している。
拡散からのエージェント意図(AID)によるマルチエージェント情報収集経路計画
arXiv cs.RO / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、環境の事後確率(信念)が新しい観測で更新される状況で、限られた時間や予算の制約下において情報獲得量を最大化するためにエージェント同士が協調するマルチエージェント情報収集経路計画(MAIPP)を扱う。
- 先行の学習ベース協調手法では、将来位置の分布を「意図(intent)」として扱うが、計算コストが高く、誤差の連鎖(compounding errors)が起きやすい点が課題だと指摘する。
- 提案手法AIDは拡散モデルを用い、非自己回帰的に長期の軌道を生成することで、分散(完全分散)型のMAIPPを実現し、協調の効率を高める。
- AIDは2段階で学習し、まず既存のMAIPPプランナが生成した軌道で模倣学習(behavior cloning)を行い、その後、Diffusion Policy Policy Optimization(DPPO)による強化学習でオンライン報酬フィードバックを通じて協調を改善する。
- 実験では、AIDが学習に用いたMAIPPプランナを一貫して上回り、最大4倍の実行速度と最大17%の情報獲得向上を示し、エージェント数が増えても拡張可能であること、さらに実装が公開されていることが報告される。




