CreativeBench: 自己進化型課題を通じた機械創造性のベンチマークと向上
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CreativeBenchは、2つのサブセット(CreativeBench-ComboとCreativeBench-Explore)と、リバースエンジニアリングと自己対戦を用いた自動化パイプラインを備え、コード生成における機械の創造性を評価するベンチマークを提供します。
- 実行可能なコードを用いる際に、品質と新規性の積として定義される統一指標を用いて、創造性と幻覚を区別します。
- 主な知見: スケーリングは組み合わせ的創造性を著しく向上させる一方、探索的創造性には限界的収益しかない。より大きなモデルはスケーリングによって収束し、正確さは高まるが発散性は低下します。推論能力は組み合わせよりも制約された探索に主に役立ちます。
- EvoRePEを導入します。これは推論時の誘導戦略で、進化的探索パターンを内部化して機械の創造性を一貫して高めます。
- 本研究は、客観的なベンチマークの枠組みと、AI創造性の将来研究に向けた指針を提供します。
高品質な事前学習データの飽和は、継続的に新規アーティファクトを生成できる進化的システムへと研究の焦点を移し、AlphaEvolve の成功を導きました。しかし、そのようなシステムの進歩は、厳密で定量的な評価の欠如によって妨げられています。この課題に取り組むため、CreativeBench を導入します。これはコード生成における機械の創造性を評価するベンチマークで、古典的な認知フレームワークに基づいています。CreativeBench は CreativeBench-Combo と CreativeBench-Explore の2つのサブセットから成り、リバースエンジニアリングと自己対戦を活用した自動化パイプラインを通じて、組み合わせ的創造性と探索的創造性をターゲットにします。実行可能なコードを活用することにより、CreativeBench は統一指標を用いて創造性と幻覚を客観的に区別します。この統一指標は、品質と新規性の積として定義されます。我々の最先端モデルの分析は、いくつかの顕著な振る舞いを明らかにします:(1) スケーリングは組み合わせ的創造性を著しく改善しますが、探索には限界的収益しかもたらしません;(2) より大規模なモデルは「スケーリングによる収束」を示し、正確さは高まる一方、発散性は低下します;(3) 推論能力は主に制約された探索に利益をもたらし、組み合わせにはあまり効果がありません。最後に、 EvoRePE を提案します。これは進化的探索パターンを内部化して機械の創造性を一貫して高める、プラグアンドプレイ型の推論時舵取り戦略です。
