KD-MARL：マルチエージェント強化学習におけるリソース配慮型知識蒸留

arXiv cs.AI / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、厳しい計算量・メモリ・推論時間の制約があるエッジ端末や組込みプラットフォーム上でマルチエージェント強化学習（MARL）を展開するための、2段階のリソース配慮型知識蒸留フレームワークであるKD-MARLを提案する。
KD-MARLは、中央集権的なエキスパート方策から、行動レベルのふるまいと協調の構造の両方を、軽量な分散型のスチューデントエージェントへ蒸留する。さらに、蒸留された優位度（advantage）信号と構造化された方策の教師信号により、クリティックなしで学習できることを可能にする。
本手法は異種エージェントに対応するよう設計されており、各スチューデントモデルは、部分的または制限された観測下での観測の複雑さに合わせて、その能力（キャパシティ）をスケールできる。
SMACおよびMPEベンチマークでの実験では、強力な性能保持が示され、エキスパート性能の90%超を維持しつつ、計算コストを最大28.6×のFLOPs削減で抑えられることが報告される。
総合すると、構造化された蒸留を通じてエキスパート級の協調を維持しつつ、リソース制約のある環境で現実的かつコスト効率の高いMARLの実行を可能にすることを主張している。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

Reddit r/artificial

ITmedia AI+

Dev.to

Dev.to