OptiVerse:最適化問題解決に向けた包括的ベンチマーク
arXiv cs.CL / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、確率的最適化、動的最適化、ゲーム最適化、最適制御などの見落とされがちな領域を含む、1,000問の厳選最適化問題からなる新しいベンチマーク「OptiVerse」を提案しています。
- 22のLLMを評価した結果、難しい問題で精度が急激に低下し、GPT-5.2やGemini-3のような最上位モデルでも精度が27%を超えないことが示されています。
- 誤り分析により、複雑な最適化課題での主なボトルネックは「モデリングとロジックの誤り」であると特定されています。
- 著者らは、追加の時間オーバーヘッドを大きく増やさずにLLMのモデリング過程を改善する「Dual-View Auditor Agent」を提案しています。
- OptiVerseは、LLMによる複雑な最適化問題解決の発展を支える基盤プラットフォームとして位置づけられています。



