KD-MARL:マルチエージェント強化学習におけるリソース配慮型知識蒸留

arXiv cs.AI / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、厳しい計算量・メモリ・推論時間の制約があるエッジ端末や組込みプラットフォーム上でマルチエージェント強化学習(MARL)を展開するための、2段階のリソース配慮型知識蒸留フレームワークであるKD-MARLを提案する。
  • KD-MARLは、中央集権的なエキスパート方策から、行動レベルのふるまいと協調の構造の両方を、軽量な分散型のスチューデントエージェントへ蒸留する。さらに、蒸留された優位度(advantage)信号と構造化された方策の教師信号により、クリティックなしで学習できることを可能にする。
  • 本手法は異種エージェントに対応するよう設計されており、各スチューデントモデルは、部分的または制限された観測下での観測の複雑さに合わせて、その能力(キャパシティ)をスケールできる。
  • SMACおよびMPEベンチマークでの実験では、強力な性能保持が示され、エキスパート性能の90%超を維持しつつ、計算コストを最大28.6×のFLOPs削減で抑えられることが報告される。
  • 総合すると、構造化された蒸留を通じてエキスパート級の協調を維持しつつ、リソース制約のある環境で現実的かつコスト効率の高いMARLの実行を可能にすることを主張している。