ClassEval-Pro:クラスレベルのコード生成のためのクロスドメインベンチマーク

arXiv cs.CL / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、関数レベルのコード生成とリポジトリ改変の中間にある「仕様から内部構造を備えたクラスを組み立てる」クラスレベル(合成的)コード生成に焦点を当てた新しいベンチマークClassEval-Proを提案しています。
  • ClassEval-Proは11ドメインにまたがる300タスクで構成され、複雑性強化・クロスドメインのクラス合成・2025年1月以降に追加された実GitHubコードの統合を含む自動化パイプラインにより作成されています。
  • 各タスクはLLM Judge Ensembleによって検証され、さらに90%以上の行カバレッジを満たすテストスイートに合格することが必須とされています。
  • 5つの最先端LLMと5つの生成戦略を評価したところ、最良モデルのクラスレベルPass@1は45.6%で、最強と最弱のモデル間で17.7ポイントの大きな差が確認されました。
  • 生成戦略の影響が大きく、ボトムアップのような構造化手法は弱いモデルを最大9.4ポイント改善する一方で、合成的生成は1.3%まで崩れることがあり、失敗要因としてロジックエラー(56.2%)と依存関係エラー(38.0%)が支配的であることが示されています。

要旨: LLMは、関数レベルでのコード合成と、リポジトリレベルでのコード修正の両方において強力な結果を達成してきました。しかし、この2つの極の間に位置する能力――すなわち、仕様から完全で内部的に構造化されたクラスを構築する「合成的なコード生成」――は、いまだ十分に扱われていません。現在の評価は、孤立した関数に限定されるか、もしくは手作業で厳選されたクラスレベルのタスクに依存しており、規模を拡大するのが高コストであるうえ、データ汚染の影響を受けやすくなりつつあります。本稿では、300のクラスレベルタスクからなるベンチマーク「ClassEval-Pro」を導入します。これは11の領域にまたがるタスク群であり、自動化された3段階パイプラインによって構築されます。このパイプラインは、複雑性の強化、領域をまたいだクラス合成、そして2025年1月以降に提供された実世界のGitHubコードの統合を組み合わせます。各タスクはLLM Judge Ensembleによって検証され、かつ、90%以上の行カバレッジを満たすテストスイートに合格しなければなりません。5つの最先端LLMを、5つの生成戦略のもとで評価します。最良のモデルでもクラスレベルのPass@1は45.6%にとどまり、最強モデルと最弱モデルの間には17.7ポイントの差があります。これは、本ベンチマークの識別力を裏づけています。戦略の選択はモデルの能力と強く相互作用します。ボトムアップのような構造化されたアプローチは、弱いモデルを最大で9.4パーセンテージポイント改善します。一方、合成的な生成は最大でも1.3%まで崩壊します。500件の手作業による注釈付きの失敗に対する誤り分析では、論理エラー(56.2%)と依存関係エラー(38.0%)が支配的であり、領域をまたぐ手法間の連携が主要なボトルネックであることが示されます。