AutoOR：運用研究（OR）問題を自動で自明化（形式化）するための、スケーラブルなLLMポストトレーニング

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

AutoORは、合成データ（検証済み）を用いてLLMをポストトレーニングし、自然言語で書かれた運用研究（OR）問題をソルバで解ける形式へ自動変換するためのスケーラブルなパイプラインとして提案されている。
標準的な最適化形式から合成学習データを生成し、ソルバ実行結果のフィードバックを報酬信号として強化学習（RL）により学習する点が特徴だ。
評価では、AutoORにより訓練された8Bモデルが6つの確立したORベンチマークで最先端または競争力のある成績を示し、より大規模なフロンティアモデルに匹敵する結果とされている。
物理ダイナミクスを含む難しい非線形OR問題（フロンティアモデルが0%近いスコアになるクラス）に対しては、限られた初期データから段階的に学習させるカリキュラムRL戦略を導入している。
著者らは、AutoORのような手法が、最適化課題の形式化に必要なOR専門知識を減らし、産業の意思決定を大きく加速し得ると主張している。

要旨: 最適化問題は、製造業、物流、スケジューリング、その他の産業分野における意思決定の中心です。これらの問題に関する複雑な記述を、ソルバーが扱える定式化へと翻訳するには、専門的なオペレーションズ・リサーチ（OR）の知識が必要であり、規模拡大が難しくなっています。私たちは、AutoOR という、合成データ生成と強化学習のためのスケーラブルなパイプラインを提示します。この手法は、線形、混合整数、非線形といったカテゴリにまたがって、自然言語で指定された最適化問題を LLM により自動で形式化できるように訓練します。AutoOR は、標準的な最適化形式から検証済みの学習データを生成し、RL（強化学習）のポストトレーニングにおける報酬信号として、ソルバー実行フィードバックを用います。8B モデルに AutoOR を適用すると、6つの確立された OR ベンチマークにおいて最先端の結果、または競争力のある結果が得られ、より大規模なフロンティア・モデルに対して大幅に遜色ない性能を示します。物理ダイナミクスを扱う非線形問題クラスではフロンティア・モデルのスコアが 0% に近いことから、このクラスをポストトレーニングで扱えるようにするため、限られた初期の学習データからブートストラップするカリキュラム強化学習戦略を導入します。AutoOR のような手法は、AI による産業の意思決定を大きく加速できると考えています。