ScaleEdit-12M: マルチエージェント・フレームワークによるオープンソース画像編集データ生成のスケーリング

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、コストのかかる専用(プロプライエタリ)のAPIに依存せずに、大規模で多様かつ高品質な、指示に基づく画像編集データセットを生成するための、完全オープンソースの階層型マルチエージェント・フレームワーク「ScaleEditor」を提案する。
  • エンドツーエンドのパイプラインは、(1) ソース画像の拡張と世界知識の注入、(2) 適応的なマルチエージェントによる指示-画像合成、(3) タスクに応じたデータ品質の検証、を組み合わせることで、編集の現実味と汎化性を高める。
  • ScaleEditorを用いて、著者らは、これまでで最大規模のオープンソース画像編集データセットであると報告される「ScaleEdit-12M」をキュレーションする。そこでは、実世界ドメインと合成ドメインの両方にまたがり、23のタスクファミリをカバーしている。
  • ScaleEditでUniWorld-V1およびBagelを微調整したところ、一貫して性能向上が見られた。一般的な編集ベンチマークではImgEditで最大10.4%、GEditで最大35.1%向上し、知識注入ベンチマークではRISEで最大150.0%、KRIS-Benchで最大26.5%向上した。
  • 著者らは、これらの結果は、オープンソースのエージェント型データセット・パイプラインが、費用対効果とスケーラビリティを維持したまま、商用レベルに近いデータ品質へ到達し得ることを示唆すると主張しており、フレームワークおよびデータセットの両方をオープンソース化する計画である。

要旨: 命令ベースの画像編集は、統合マルチモーダルモデル(UMM)にとっての重要な機能として登場してきたが、高価な独自APIを用いずに、大規模で多様かつ高品質な編集データセットを構築することは依然として困難である。従来の画像編集データセットは、注釈のためにクローズドソースのモデルに依存しているため費用対効果よくスケールできないか、固定された合成編集パイプラインを用いており、その結果、品質と汎用性が限定的になる。本研究では、これらの課題に対処するため、エンドツーエンドで大規模かつ高品質な画像編集データセットを構築するための、完全にオープンソースの階層型マルチエージェントフレームワークであるScaleEditorを提案する。提案パイプラインは、3つの主要コンポーネントから構成される。すなわち、世界知識の注入によるソース画像の拡張、適応的なマルチエージェントによる編集指示—画像の合成、タスクに応じたデータ品質検証メカニズムである。ScaleEditorを用いて、これまでで最大規模のオープンソース画像編集データセットであるScaleEdit-12Mをキュレーションした。これは、多様な実データおよび合成ドメインにわたって、23のタスクファミリーをカバーする。ScaleEditでUniWorld-V1およびBagelを微調整すると、一般的な編集ベンチマークにおいてはImgEditで最大10.4%、GEditで最大35.1%、知識注入型ベンチマークにおいてはRISEで最大150.0%、KRIS-Benchで最大26.5%の一貫した改善が得られる。これらの結果は、オープンソースのエージェント型パイプラインが、費用対効果とスケーラビリティを維持したまま、市販レベルのデータ品質に近づけることを示している。フレームワークおよびデータセットの両方をオープンソース化する予定である。