AI Navigate

ダイナミックプライシングのためのマルチエージェント強化学習: 収益性・安定性・公平性のバランス

arXiv cs.LG / 2026/3/19

📰 ニュースIndustry & Market MovesModels & Research

要点

  • 本論文は、実世界データに基づくシミュレーション環境を用いて、競争的な小売市場におけるダイナミックプライシング最適化のための MARL アプローチ MAPPO と MADDPG を体系的に評価している。
  • これらのアルゴリズムを独立した DDPG ベースラインと比較し、利益、ランダムシード間の安定性、公平性、学習効率を評価している。
  • MAPPO は低い分散で最高の平均リターンを達成し、競争的な価格最適化に対して安定かつ再現性のあるアプローチを示している。
  • MADDPG は利益はわずかに低いが、エージェント間で最も公平な利益分布を実現しており、MARL における公平性の利点を浮き彫りにしている。
  • 全体として、本研究は MARL 手法、特に MAPPO を、ダイナミック小売価格設定における独立学習のスケーラブルで安定した代替案として提案している。

要約: 競争的な小売市場におけるダイナミックプライシングは、需要の変動と競合他社の行動に適応する戦略を必要とします。 本研究では、競争下でのダイナミック価格最適化のためのマルチエージェント強化学習(MARL)アプローチ、特にMAPPOとMADDPGを対象に、体系的な実証評価を提示します。実世界の小売データに基づいて構築したシミュレート市場環境を用い、これらのアルゴリズムを独立学習器として広く用いられているIndependent DDPG(IDDPG)ベースラインと比較します。利益性能、乱数シード間の安定性、公平性、学習効率を評価します。我々の結果は、MAPPOが一貫して最高の平均リターンを低分散で達成し、競争力のある価格最適化に対して安定かつ再現性のあるアプローチを提供する一方、MADDPGは利益がわずかに低いもののエージェント間で最も公平な利益分布を示すことを示しています。これらの知見は、MARL手法、特にMAPPOが、ダイナミック小売価格設定に対する独立学習アプローチの拡張性が高く、安定した代替手段を提供することを示しています。