CREval：複雑な指示下でのクリエイティブな画像操作を対象とした、自動で解釈可能な評価

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、マルチモーダルな画像操作モデルのスコアリングを、ブラックボックス的なMLLMベースの指標よりも包括的かつ解釈可能にすることを目的とした、自動化されたQAベースの評価パイプライン「CREval」を提案する。
また、複雑な指示の下での創造的な画像編集のためのベンチマーク「CREval-Bench」を公開する。3カテゴリ、9つの創造性ディメンションからなり、800件以上の編集サンプルと13K件の評価クエリを含む。
CREvalおよびCREval-Benchを用いて、著者らは各種の最先端モデル（オープンソース／クローズドソース）を評価し、クローズドソースのモデルが複雑で創造的な編集において概ねより良い性能を示すことを見出す。
性能差はあるものの、本研究では、評価対象となったすべてのモデルが、こうした複雑な創造的編集を効果的に実行することに依然として苦戦していると報告している。
ユーザースタディでは、CREvalの自動指標と人間の判断との高い整合性が示され、CREvalが今後の評価や研究のための実用的な基盤になり得ることが位置付けられている。

AI Business

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to