CresOWLve：実世界の知識に基づく創造的問題解決をベンチマークする

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、作為的な頭の体操ではなく実世界の知識に根ざしたパズルを用いて、創造的問題解決を測定するための新しいベンチマーク「CresOWLve」を提案する。
CresOWLveは、複数の認知的方略、領域をまたいだ知識の検索、事実の創造的な再結合を要求することで、より現実的な創造的ワークフローを反映することを目指す。
いくつかの最先端の「思考（thinking）」および「非思考（non-thinking）」LLMに対して実験を行った結果、全体として本ベンチマークは非常に高い難易度のままであることが示される。
結果は一貫した性能ギャップを示しており、モデルは創造的な問題よりも事実に関する質問への回答のほうが大幅に得意であり、その低下は最大で約17%に達する。
分析では、モデルはしばしば関連情報を取得できる一方で、知識を統合し正しい創造的解答を生み出すのに必要な、非自明なつながりを作るのが難しいことが示唆される。

要旨: 創造的な問題解決には、論理的推論、ラテラル・シンキング（飛躍的発想）、類推、常識的知識など、複数の認知能力を組み合わせて、ぱっと見では無関係に見える情報同士をつなぐ洞察を発見することが必要です。しかし、既存の大半の大規模言語モデル（LLM）のベンチマークは、このプロセスの特定の要素だけを評価しています。さらに、多くの創造性を志向したベンチマークは、人工的に作られたパズルや、創造的な問題解決が現実の状況でどのように起こるかを反映していない作り物のシナリオに依存しています。このギャップに対処するために、本研究では実世界の知識に基づくパズルを用いた、創造的な問題解決の評価ベンチマークである CresOWLve を提案します。CresOWLve の問題では、複数の創造的思考戦略を用い、さまざまな領域から事実を想起（リトリーブ）し、それらを創造的に組み合わせて解答に到達することが求められます。いくつかの最先端の「非思考型」および「思考型」LLM を評価したところ、CresOWLve は依然として非常に高い難易度を保っていることを示します。分析の結果、一貫した性能差が明らかになりました。すなわち、モデルは創造的な問いよりも事実に関する問いのほうで大幅に良い成績を示します（最大で -17% の低下）。モデルはしばしば関連する知識を取得できますが、その情報を統合して正しい答えに到達するために必要な、非自明な創造的つながりを形成するのが難しいことが分かりました。

Black Hat Asia

AI Business

新規会員登録

AI-SCHOLAR

#生成AI (304,168)

note

今すぐ会員登録（無料）

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

CresOWLve：実世界の知識に基づく創造的問題解決をベンチマークする

要点

関連記事

Black Hat Asia

新規会員登録

#生成AI (304,168)

今すぐ会員登録（無料）

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

新規会員登録

#生成AI (304,168)

今すぐ会員登録（無料）

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ