CreativeBench: 自己進化型課題を通じた機械創造性のベンチマークと向上

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CreativeBenchは、2つのサブセット（CreativeBench-ComboとCreativeBench-Explore）と、リバースエンジニアリングと自己対戦を用いた自動化パイプラインを備え、コード生成における機械の創造性を評価するベンチマークを提供します。
実行可能なコードを用いる際に、品質と新規性の積として定義される統一指標を用いて、創造性と幻覚を区別します。
主な知見: スケーリングは組み合わせ的創造性を著しく向上させる一方、探索的創造性には限界的収益しかない。より大きなモデルはスケーリングによって収束し、正確さは高まるが発散性は低下します。推論能力は組み合わせよりも制約された探索に主に役立ちます。
EvoRePEを導入します。これは推論時の誘導戦略で、進化的探索パターンを内部化して機械の創造性を一貫して高めます。
本研究は、客観的なベンチマークの枠組みと、AI創造性の将来研究に向けた指針を提供します。

高品質な事前学習データの飽和は、継続的に新規アーティファクトを生成できる進化的システムへと研究の焦点を移し、AlphaEvolve の成功を導きました。しかし、そのようなシステムの進歩は、厳密で定量的な評価の欠如によって妨げられています。この課題に取り組むため、CreativeBench を導入します。これはコード生成における機械の創造性を評価するベンチマークで、古典的な認知フレームワークに基づいています。CreativeBench は CreativeBench-Combo と CreativeBench-Explore の2つのサブセットから成り、リバースエンジニアリングと自己対戦を活用した自動化パイプラインを通じて、組み合わせ的創造性と探索的創造性をターゲットにします。実行可能なコードを活用することにより、CreativeBench は統一指標を用いて創造性と幻覚を客観的に区別します。この統一指標は、品質と新規性の積として定義されます。我々の最先端モデルの分析は、いくつかの顕著な振る舞いを明らかにします：(1) スケーリングは組み合わせ的創造性を著しく改善しますが、探索には限界的収益しかもたらしません；(2) より大規模なモデルは「スケーリングによる収束」を示し、正確さは高まる一方、発散性は低下します；(3) 推論能力は主に制約された探索に利益をもたらし、組み合わせにはあまり効果がありません。最後に、 EvoRePE を提案します。これは進化的探索パターンを内部化して機械の創造性を一貫して高める、プラグアンドプレイ型の推論時舵取り戦略です。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

CreativeBench: 自己進化型課題を通じた機械創造性のベンチマークと向上

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer