AutoOR:運用研究(OR)問題を自動で自明化(形式化)するための、スケーラブルなLLMポストトレーニング

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • AutoORは、合成データ(検証済み)を用いてLLMをポストトレーニングし、自然言語で書かれた運用研究(OR)問題をソルバで解ける形式へ自動変換するためのスケーラブルなパイプラインとして提案されている。
  • 標準的な最適化形式から合成学習データを生成し、ソルバ実行結果のフィードバックを報酬信号として強化学習(RL)により学習する点が特徴だ。
  • 評価では、AutoORにより訓練された8Bモデルが6つの確立したORベンチマークで最先端または競争力のある成績を示し、より大規模なフロンティアモデルに匹敵する結果とされている。
  • 物理ダイナミクスを含む難しい非線形OR問題(フロンティアモデルが0%近いスコアになるクラス)に対しては、限られた初期データから段階的に学習させるカリキュラムRL戦略を導入している。
  • 著者らは、AutoORのような手法が、最適化課題の形式化に必要なOR専門知識を減らし、産業の意思決定を大きく加速し得ると主張している。

要旨: 最適化問題は、製造業、物流、スケジューリング、その他の産業分野における意思決定の中心です。これらの問題に関する複雑な記述を、ソルバーが扱える定式化へと翻訳するには、専門的なオペレーションズ・リサーチ(OR)の知識が必要であり、規模拡大が難しくなっています。私たちは、AutoOR という、合成データ生成と強化学習のためのスケーラブルなパイプラインを提示します。この手法は、線形、混合整数、非線形といったカテゴリにまたがって、自然言語で指定された最適化問題を LLM により自動で形式化できるように訓練します。AutoOR は、標準的な最適化形式から検証済みの学習データを生成し、RL(強化学習)のポストトレーニングにおける報酬信号として、ソルバー実行フィードバックを用います。8B モデルに AutoOR を適用すると、6つの確立された OR ベンチマークにおいて最先端の結果、または競争力のある結果が得られ、より大規模なフロンティア・モデルに対して大幅に遜色ない性能を示します。物理ダイナミクスを扱う非線形問題クラスではフロンティア・モデルのスコアが 0% に近いことから、このクラスをポストトレーニングで扱えるようにするため、限られた初期の学習データからブートストラップするカリキュラム強化学習戦略を導入します。AutoOR のような手法は、AI による産業の意思決定を大きく加速できると考えています。