広告

最適化モデリングのための実行検証型強化学習

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMが生成したソルバ固有のコードを数学的計画法ソルバを用いた決定論的な検証器として扱うクローズドループ型フレームワーク「Execution-Verified Optimization Modeling(EVOM)」を提案する。
  • EVOMは、サンドボックス上の実行結果をスカラー報酬へと変換し、GRPOおよびDAPOで学習することで、単一のソルバAPIに過適合し得る高コストなプロセスレベルの教師あり監督を回避する。
  • ソルバ固有データセットを作り直すのではなく、検証環境(ソルババックエンド)を切り替えることで、EVOMはクロスソルバの汎化とゼロショットのソルバ移転を狙う。
  • NL4OPT、MAMO、IndustryOR、OptiBenchといった複数の最適化ベンチマーク、およびソルババックエンド(Gurobi、OR-Tools、COPT)に対する実験により、EVOMはプロセス監督付きSFTと同等、またはそれを上回り、ターゲットのソルバの下で学習を継続することで低コストな適応が可能であることが示される。
  • 本研究は、LLMによって自動化された最適化モデリングを用いた「スケーラブルな意思決定インテリジェンス」への別ルートとして、実行検証型強化学習を位置づける。

広告