DeepStock: 在庫管理のためのポリシー正則化を用いた強化学習

arXiv cs.LG / 2026/3/23

💬 オピニオンIndustry & Market MovesModels & Research

要点

  • 著者らは、ベースストックなど古典的な在庫概念に基づくポリシー正則化が、DRLのハイパーパラメータ調整を大幅に加速し、最終性能を向上させることを示している。
  • ポリシー正則化は訓練時のハイパーパラメータへの感度を低減し、実務においてDRLベースの在庫ポリシーをより堅牢にする。
  • 本研究は、アリババのTmall(天猫)でポリシー正則化を組み込んだDRLを100%展開したと報告しており、現実世界での大規模適用可能性を示している。
  • 追加の合成実験は、ポリシー正則化が在庫管理において最適とされるDRL手法の判断に影響を与え、実務上の推奨を再形成することを示唆している。

要約: Deep Reinforcement Learning (DRL) は、大規模データと計算資源を活用できる在庫ポリシーを訓練するための汎用的な方法論を提供します。しかし、既製の DRL 実装は成功がまちまちで、訓練時に使用されるハイパーパラメータに対する高い感度に悩まされることが多いです。本論文では、「Base Stock」などの古典的な在庫概念に基づくポリシー正則化を課すことにより、ハイパーパラメータチューニングを大幅に加速し、いくつかの DRL 手法の最終性能を改善できることを示します。アリババのeコマースプラットフォームである天猫(Tmall)における、ポリシー正則化を組み込んだ DRL の100%展開の詳細を報告します。また、ポリシー正則化が在庫管理における最適な DRL 手法とは何かという議論の見方を再構築することを示す、広範な合成実験も含まれています。