概要: 半自動倉庫ソートシステムにおけるリアルタイムの人員配置決定を最適化するための機械学習手法を調査します。業務上の意思決定は、異なる抽象化レベルで支援可能であり、それぞれ異なるトレードオフがあります。私たちは、それぞれを対応するマッチング用のシミュレーション環境で評価します。まず、詳細な過去の状態表現に対するオフライン強化学習を用いて、カスタムのTransformerベース方策を訓練し、学習済みシミュレータにおいて過去のベースラインに対してスループットを2.4%改善します。高い取扱量を誇る倉庫業務では、この規模の改善は大きなコスト削減につながります。次に、人間が読める形に抽象化された状態記述に基づいて動作するLLMを探究します。これらは、倉庫の管理者が高レベルの業務サマリを用いて下す意思決定に自然に適合します。私たちは、プロンプト手法、プロンプトの自動最適化、ファインチューニング戦略を体系的に比較します。プロンプトのみでは不十分である一方、シミュレータで生成した嗜好(preferences)に対するDirect Preference Optimizationを組み合わせた教師ありファインチューニングは、手作りのシミュレータにおける過去のベースラインと同等、あるいはわずかに上回る性能を達成します。私たちの結果は、どちらのアプローチもAI支援による業務上の意思決定への実行可能な道筋を提供することを示しています。オフラインRLはタスク固有のアーキテクチャで優れた性能を発揮します。LLMは人間が読める入力を扱え、反復的なフィードバックループと組み合わせることで、管理者の嗜好を取り込むことができます。
学習する配置要員:倉庫の配置最適化のためのオフライン強化学習と微調整済みLLM
arXiv cs.LG / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、半自動の仕分けシステムにおけるリアルタイムな倉庫の配置(人員配置)意思決定を最適化するための機械学習手法を検討し、意思決定の抽象化の違いにわたるトレードオフを評価する。
- 豊富な過去の状態表現を用いたオフライン強化学習で学習したカスタムTransformerポリシーにより、シミュレーション上のスループットが過去のベースラインに比べて2.4%向上できることを示す。
- より高いレベルで人間が読み取れる意思決定入力に対して、著者らはLLMベースのアプローチを検証し、プロンプト、プロンプトの自動最適化、微調整戦略を比較する。
- その結果、単なるプロンプトでは不十分だが、シミュレータで生成した嗜好データを用いたDirect Preference Optimization(DPO)と組み合わせた教師あり微調整により、手作りのシミュレータベースラインに匹敵、あるいはわずかに上回れることを見いだす。
- 総じて本研究は、タスク固有のアーキテクチャに対してはオフラインRL、解釈可能な状態抽象化と嗜好フィードバックループのためには微調整済みLLMの双方が、AI支援による運用の人員配置において実行可能であると主張する。
広告
