AlphaInventory：大規模言語モデルで白箱型在庫方針を進化させ、デプロイ時の保証を実現する

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、オンラインかつ非定常な需要環境において、大規模言語モデルを用いて在庫方針を進化させるエンドツーエンドの枠組み「AlphaInventory」を提案している。
AlphaInventoryは、強化学習と信頼区間に基づく認証（certification）を中核とし、将来の期間にデプロイ可能な統計的安全性保証付きの白箱型在庫方針を生成する。
学習では需要データに加えて、数値・テキストの追加特徴量を取り込み、従来手法よりも優れた方針進化を狙っている。
学習・推論・デプロイをつなぐ統一的な理論インターフェースを示し、統計的に安全で改善された方針を進化できる確率を評価・定量化できる。
合成データと実在の小売データの両方で、AlphaInventoryは古典的な在庫方針や深層学習ベースの手法を上回り、典型的な在庫設定で既存ベンチマークより改善することを報告している。

要旨: 本研究では、大規模言語モデル（LLM）をオンラインで非定常な環境における在庫ポリシーの進化にどのように用いることができるかを検討します。本研究は、数学的発見のような静的かつ高度に構造化された問題に対して強い性能を示した AlphaEvolve のような、LLM に基づく進化的探索の最近の進歩に動機づけられています。しかし、AlphaEvolve はオンラインの動的在庫設定には直接適していません。そこで本研究では、信頼区間に基づく認証（certification）に裏付けられた、エンドツーエンドの在庫ポリシー進化および推論フレームワークである AlphaInventory を提案します。このフレームワークは、強化学習を用いて大規模言語モデルを訓練し、需要データに加えて需要以外の数値的およびテキスト的特徴を組み込みます。そして、将来期間への展開のための統計的な安全性の保証を伴う、ホワイトボックスな在庫ポリシーを生成します。さらに、訓練・推論・展開を結び付ける統一的な理論的インターフェースも導入します。これにより、AlphaInventory が統計的に安全で改善されたポリシーへ進化する確率を特徴づけ、オラクルに基づく安全ベンチマークに対する展開ギャップを定量化できます。合成データと実世界の小売データの両方で検証したところ、AlphaInventory は従来型の在庫ポリシーおよび深層学習に基づく手法を上回りました。標準的な在庫設定において、AlphaInventory は既存のベンチマークを改善する新しいポリシーを進化させます。