大規模言語モデルは制約下で推論し、最適化できるのか？

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルが、実際の物理・運用上の制約を持つ Optimal Power Flow（OPF）問題に対して、推論および制約付き最適化を行えるかどうかを評価する。
複数の制約解決に必要な中核スキル（構造化された入力処理、算術、推論、制約付き最適化）をテストする、厳密なベンチマークを提案する。
結果として、最先端のLLMは大多数のタスクで失敗し、推論に特化したLLMでさえ、最も難しい制約中心の設定では大きく苦戦することが示される。
著者らは、制約下で構造化された推論を実行するLLMの能力における重要なギャップを特定し、本ベンチマークを、実際の電力系統最適化を目指す将来のLLMアシスタントを評価するためのテストフィールドとして位置づける。

Abstract

大規模言語モデル（LLM）は、多様な自然言語タスクにおいて優れた能力を示してきました。しかし、制約のある抽象化および最適化問題を解く能力については、ほとんど調査されていません。本論文では、LLMが最適パワーフロー（OPF）問題の物理的および運用上の制約のもとで推論し、最適化できるかどうかを検討します。私たちは、推論、構造化された入力の取り扱い、算術、および制約付き最適化といった一連の基本的スキルを必要とする、挑戦的な評価設定を導入します。評価の結果、SoTAのLLMはほとんどのタスクに失敗し、推論系LLMであっても最も複雑な設定ではなお失敗することが分かりました。これらの発見は、制約のもとで構造化された推論を扱うLLMの能力に重大なギャップがあることを示しており、本研究は、実世界の電力系統最適化問題に取り組める、より能力の高いLLMアシスタントを開発するための、厳密なテスト環境を提供します。