アイデアの精緻化がアイデアの独創性の自動評価に与える影響

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、分岐的思考タスク（Alternate Uses Task）において、アイデアの独創性を自動評価する際に、大規模言語モデル（LLM）が人間の判断をどの程度再現できるかを検証しています。
トレーニングを受けた学生の人間評価を、AUTに基づく2つの専門システムの微調整モデルおよび同一の指示でプロンプトしたChatGPT-4oと比較しました。
結果として、自己選好バイアスが確認され、LLMベースの自動評価は、人間の創造性というよりモデル自身の文体に似た出力を優先しやすいことが示されました。
重要なのは、アイデアの精緻化（elaboration）の度合いで分析を制御すると、自己選好バイアスが消失した点です。
これらの知見は、自動化された創造性評価の将来の研究に向けた理論的・方法論的な示唆を論じています。

Abstract

自動システムは、創造的な課題における応答の独創性を評価するために、ますます利用されるようになっています。これらは、人間による評価の主要な制約（費用、疲労、主観性）に対する潜在的な解決策を提供しますが、自己選好バイアスが存在するという予備的な証拠もあります。したがって、自動システムは、人間のスタイルとの関連よりも、自らのスタイルとより密接に関連した結果を好む傾向があります。本論文では、発散的思考タスクにおける応答の独創性を評価する際に、大規模言語モデル（LLM）が人間の評価者とどのように整合するのかを調査しました。高い創造性を持つ人間と低い創造性を持つ人間、ならびにChatGPT-4oによって生成されたAlternate Uses Task（別用途課題）の4,813件の応答を分析しました。人間の評価者は2名の大学生であり、集中的な訓練を受けました。機械の評価者は、AUTの応答とそれに対応する人間の評価（OCSAIおよびCLAUS）およびChatGPT-4oに対して、同じ指示を人間の評価者に与えたのと同様のプロンプトで、微調整された2つの専門システムでした。結果は、LLMに自己選好バイアスが存在することを確認しました。自動システムは人工的な応答を優先する傾向がありました。しかし、この自己選好バイアスは、分析でアイデアの精緻化を統制した場合に消失しました。本研究では、創造性評価のための今後の研究の方向性を示すことで、これらの知見の理論的および方法論的な含意を議論します。