要旨: 大規模言語モデル(LLM)は自然言語からコードを生成できますが、意図されたプログラム挙動をどの程度まで捉えているかは不明なままです。前提条件と事後条件によって定義される実行可能な挙動仕様は、このような理解を評価するための具体的な手段を提供します。しかし、仕様生成に関する既存の研究は、評価手法、タスク設定、仕様の表現力という点で制約されています。我々は、実行ベースの評価プロトコルの下で実行可能な挙動仕様を生成するためのベンチマークである CodeSpecBench を導入します。CodeSpecBench は、関数レベルおよびリポジトリレベルの両方のタスクをサポートし、仕様を実行可能な Python 関数としてエンコードします。多様な現実のコードベースから構築されているため、正しさ(妥当な挙動を受け入れること)と完全性(不正な挙動を拒否すること)の両方を現実的に評価できます。CodeSpecBench で最先端の LLM 15 種類を評価したところ、リポジトリレベルのタスクで性能が急激に低下しており、最良のモデルでもパス率は 20.2% にとどまることが分かりました。さらに、仕様生成はコード生成よりも大幅に難しいことも判明しており、強いコーディング性能が必ずしも意図されたプログラム意味論の深い理解を反映するとは限らないことを示しています。我々のデータとコードは https://github.com/SparksofAGI/CodeSpecBench で公開されています。
CodeSpecBench: 実行可能な行動仕様生成のためのLLMベンチマーク
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CodeSpecBenchは、自然言語の指示から実行可能な行動仕様(前提条件/事後条件)をどれだけうまく生成できるかを評価するための新しいベンチマークとして導入されます。
- このベンチマークは実行ベースの評価プロトコルを用い、仕様を実行可能なPython関数として表現することで、正しさ(有効な振る舞いを受け入れること)と完全性(無効な振る舞いを拒否することの両方)を測定します。
- 多様な実世界のコードベースから構築された、関数レベルおよびリポジトリレベルのタスクをサポートし、より現実的な仕様生成の状況を反映することを目指しています。
- 最新の最先端LLM15モデルのテストでは、リポジトリレベルのタスクにおいて性能の急激な低下が見られ、最上位モデルでも到達できたパス率は20.2%にとどまります。
- 結果は、仕様生成がコード生成よりも大幅に難しいことを示唆しており、強いコード作成能力が意図されたプログラムのセマンティクス理解に直結するとは限らないことを意味します。




