LLMsを用いた画像編集の評価: 包括的ベンチマークと中間層プロービング手法

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • TIEditは、512枚の元画像と10のTIEモデルからの5,120枚の編集画像を用いて、知覚品質、指示への整合性、コンテンツ保持の観点からテキスト指示に基づく画像編集を評価するベンチマークを導入します。
  • 本研究は、20名の専門家から307,200件の生データの主観評価を収集し、3つの評価次元にわたって15,360件の平均意見スコアを導出することで、信頼性のある人間と整合したベンチマークの必要性を強調します。
  • EditProbeは、LLMベースの評価手法であり、多模態LLMの中間層表現を用いて、元画像、編集指示、および編集結果の間の意味的・知覚的関係をよりよく捉えます。
  • 結果は、広く用いられている自動指標が編集タスクにおける人間の判断と乖離している一方、EditProbeは人間の知覚との整合性を大幅に高めることを示しました。
  • TIEditとEditProbeを組み合わせることで、テキスト指示に基づく画像編集手法のより信頼性が高く、知覚的に整合した評価の基盤を提供します。

要旨: テキスト指向の画像編集(TIE)手法の評価は依然として難しい課題であり、信頼性の高い評価には知覚品質、テキスト指示との整合性、元画像の内容の保持を同時に考慮する必要がある。TIEモデルの急速な進歩にもかかわらず、既存の評価ベンチマークは規模が限られており、しばしば人間の知覚判断との相関が弱い。
本研究では、テキスト指向の画像編集手法を体系的に評価するベンチマーク TIEdit を導入する。TIEdit は、8つの代表的な編集タスクにわたる編集プロンプトと組み合わせられた512の元画像から成り、10種類の最先端TIEモデルによって生成された5,120枚の編集画像を提供する。
信頼性の高い主観評価を得るために、20名の専門家を募集して307,200件の生データの主観評価を行い、3つの評価次元(知覚品質、編集の整合性、内容の保持)にわたる15,360件の平均オピニオンスコア(MOS)へと蓄積される。
ベンチマーク自体を超えて、我々は EditProbe という、隠れ表現の中間層の探索を用いて編集品質を推定するLLMベースの評価者を提案する。
最終的なモデル出力だけに依存するのではなく、EditProbe はマルチモーダル大規模言語モデルの中間層から有益な表現を抽出し、元画像、編集指示、編集結果の間の意味的・知覚的関係をより適切に捉える。
実験結果は、広く用いられている自動評価指標が編集タスクにおける人間の判断と限られた相関を示すことを示す一方で、EditProbe は人間の知覚との整合性を著しく高めることを示している。
TIEdit と EditProbe は、テキスト指向の画像編集手法のより信頼性が高く知覚に整合した評価の基盤を提供する。