AI Navigate

Omni IIE Bench: 画像編集モデルの実用的な能力をベンチマークする

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Omni IIE Bench は、実用的なアプリケーションのために、意味的スケールが異なるタスクを横断する画像編集モデルの編集の一貫性を診断するために導入されました。
  • このベンチマークは、二重トラックの診断設計を用います:共有コンテキストを持つタスクペアを用いた単回の一貫性(Single-turn Consistency)と、意味的スケールを跨ぐ連続対話タスクを含む多回の協調(Multi-turn Coordination)です。
  • これは、厳格な多段階の人間フィルタリングプロセスを経て構築され、品質検証はコンピュータビジョンの大学院生によって、産業界の関連性評価はプロのデザイナーによって実施されます。
  • 著者らは、主要な8つの IIE モデルを評価し、低意味的スケールのタスクから高意味的スケールのタスクへ移行する際に、性能低下が顕著であることを発見しました。
  • Omni IIE Bench は、次世代でより信頼性が高く安定した IIE モデルの開発を推進することを意図した診断ツールと洞察を提供します。

概要:Instruction-based Image Editing (IIE) は顕著な進歩を遂げている一方で、既存のベンチマークは混合評価を介してタスクの幅を追求します。このパラダイムは、専門的な応用で重要な重大な故障モードを隠してしまいます:意味的スケールが異なるタスク間でモデルの性能が一貫しないこと。 このギャップに対処するために、我々は Omni IIE Bench を導入します。高品質で人間が注釈を付けたベンチマークで、実際の適用シナリオにおける IIE モデルの編集の一貫性を診断することを目的としています。Omni IIE Bench は革新的なデュアルトラック診断設計を特徴とします:(1) 単回の一貫性、属性変更とエンティティ置換の共有コンテキストタスクの組み合わせからなる;および (2) マルチターン協調、意味的スケールを横断する連続対話タスクを含みます。 ベンチマークは、極めて厳格な複数段階の人間フィルタリングプロセスによって構築され、コンピュータビジョンの大学院生によって課せられた品質基準と、専門デザイナーによって実施された業界関連性の審査を取り入れています。 私たちは Omni IIE Bench を使用して、8つの主流の IIE モデルを包括的に評価します。 私たちの分析は、初めて、一般的な性能差を定量化します:ほぼすべてのモデルは、低意味的スケールのタスクから高意味的スケールのタスクへ移行する際に、顕著な性能低下を示します。 Omni IIE Bench は、次世代でより信頼性が高く安定した IIE モデルの開発のための重要な診断ツールと洞察を提供します。