チョムスキー階層を通して大規模言語モデルの形式的推論能力を評価する

arXiv cs.CL / 2026/4/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のLLMベンチマークが、計算量や複雑性の観点から見た形式的推論を、特に形式言語のチョムスキー階層に相対させて体系的に評価していないと主張する。
  • チョムスキー階層全体をカバーし、自然言語によるプロセス・トレースの評価と決定論的な記号的検証可能性を組み合わせたベンチマーク「ChomskyBench」を提案する。
  • 実験結果では、階層レベルごとに明確な性能の層別化が示され、課題の難度が上がるほど性能が大きく低下し、推論の長さが増大する。
  • より大きなモデルや高度な推論手法は相対的に結果を改善するものの、本研究は急峻な効率の障壁を見出しており、実用的な信頼性には法外に高い計算コストが必要になることが示唆される。
  • 分析は、制約の要因は絶対的な能力というより非効率性にあると結論づけ、形式的タスクにおける従来型のソフトウェアツールの継続的な不可欠性を強調する。