深層強化学習による製造業における動的な資源マッチング
arXiv cs.LG / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、製造業における需要と供給能力の動的な割当を、多期間・多対多の逐次意思決定問題として定式化し、状態空間・行動空間が大規模である点を扱います。
- 複雑な遷移ダイナミクスを明示的にモデル化せずに、最適なマッチング方策を導出するための、モデルフリーの深層強化学習アプローチを提案します。
- 学習の安定性と実行可能性を高めるため、著者らはQ-learningを2つのペナルティで修正します。1つは事前方策から得られるドメイン知識に基づくもの、もう1つは需要と供給の制約を課すものです。
- より大規模な問題に対しては、この手法をDDPGに統合し、ドメイン知識に基づくDDPG(DKDDPG)を構築します。これを従来のDDPGおよび他のRLベースラインと比較評価します。
- 小規模・大規模の両方の設定での計算実験により、DKDDPGはより高い報酬とより良い効率(より少ない時間ステップ/エピソード)を達成し、小規模ケースでは収束保証も提供することが示されます。




