深層強化学習による製造業における動的な資源マッチング

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、製造業における需要と供給能力の動的な割当を、多期間・多対多の逐次意思決定問題として定式化し、状態空間・行動空間が大規模である点を扱います。
複雑な遷移ダイナミクスを明示的にモデル化せずに、最適なマッチング方策を導出するための、モデルフリーの深層強化学習アプローチを提案します。
学習の安定性と実行可能性を高めるため、著者らはQ-learningを2つのペナルティで修正します。1つは事前方策から得られるドメイン知識に基づくもの、もう1つは需要と供給の制約を課すものです。
より大規模な問題に対しては、この手法をDDPGに統合し、ドメイン知識に基づくDDPG（DKDDPG）を構築します。これを従来のDDPGおよび他のRLベースラインと比較評価します。
小規模・大規模の両方の設定での計算実験により、DKDDPGはより高い報酬とより良い効率（より少ない時間ステップ／エピソード）を達成し、小規模ケースでは収束保証も提供することが示されます。