OptiVerse:最適化問題解決に向けた包括的ベンチマーク

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、確率的最適化、動的最適化、ゲーム最適化、最適制御などの見落とされがちな領域を含む、1,000問の厳選最適化問題からなる新しいベンチマーク「OptiVerse」を提案しています。
  • 22のLLMを評価した結果、難しい問題で精度が急激に低下し、GPT-5.2やGemini-3のような最上位モデルでも精度が27%を超えないことが示されています。
  • 誤り分析により、複雑な最適化課題での主なボトルネックは「モデリングとロジックの誤り」であると特定されています。
  • 著者らは、追加の時間オーバーヘッドを大きく増やさずにLLMのモデリング過程を改善する「Dual-View Auditor Agent」を提案しています。
  • OptiVerseは、LLMによる複雑な最適化問題解決の発展を支える基盤プラットフォームとして位置づけられています。