大規模言語モデルは制約下で推論し、最適化できるのか?

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルが、実際の物理・運用上の制約を持つ Optimal Power Flow(OPF)問題に対して、推論および制約付き最適化を行えるかどうかを評価する。
  • 複数の制約解決に必要な中核スキル(構造化された入力処理、算術、推論、制約付き最適化)をテストする、厳密なベンチマークを提案する。
  • 結果として、最先端のLLMは大多数のタスクで失敗し、推論に特化したLLMでさえ、最も難しい制約中心の設定では大きく苦戦することが示される。
  • 著者らは、制約下で構造化された推論を実行するLLMの能力における重要なギャップを特定し、本ベンチマークを、実際の電力系統最適化を目指す将来のLLMアシスタントを評価するためのテストフィールドとして位置づける。

Abstract

大規模言語モデル(LLM)は、多様な自然言語タスクにおいて優れた能力を示してきました。しかし、制約のある抽象化および最適化問題を解く能力については、ほとんど調査されていません。本論文では、LLMが最適パワーフロー(OPF)問題の物理的および運用上の制約のもとで推論し、最適化できるかどうかを検討します。私たちは、推論、構造化された入力の取り扱い、算術、および制約付き最適化といった一連の基本的スキルを必要とする、挑戦的な評価設定を導入します。評価の結果、SoTAのLLMはほとんどのタスクに失敗し、推論系LLMであっても最も複雑な設定ではなお失敗することが分かりました。これらの発見は、制約のもとで構造化された推論を扱うLLMの能力に重大なギャップがあることを示しており、本研究は、実世界の電力系統最適化問題に取り組める、より能力の高いLLMアシスタントを開発するための、厳密なテスト環境を提供します。
広告