CAMEO:条件付きかつ品質を考慮したマルチエージェント画像編集オーケストレータ

arXiv cs.CV / 2026/4/6

📰 ニュース

要点

  • 本論文は、編集を1回限りの生成ではなく、品質を考慮したフィードバック駆動のクローズドループ過程として捉える、条件付き画像編集のためのマルチエージェントフレームワークCAMEOを提案する。

Abstract

条件付き画像編集は、テキストによるプロンプトおよび任意の参照ガイダンスに基づいて、元画像を修正することを目的とします。このような編集は、厳密な構造制御が必要となる状況(すなわち、ドライビングシーンにおける異常挿入や、複雑な人体姿勢の変換)において特に重要です。Seedream、Nano Banana などの大規模編集モデルによる最近の進歩にもかかわらず、ほとんどの手法は単一ステップの生成に依存しています。このパラダイムでは、明示的な品質制御が欠けがちであり、元画像からの過度な逸脱を生む可能性があり、構造的なアーティファクトや環境と整合しない改変が頻繁に発生し、許容できる結果を得るには多くの場合、手動でのプロンプト調整が必要になります。そこで本研究では、 \textbf{CAMEO} を提案します。これは、条件付き編集をワンショット生成タスクではなく、品質を意識したフィードバック駆動のプロセスとして再定式化する、構造化されたマルチエージェントの枠組みです。CAMEO は編集を、計画、構造化されたプロンプト、仮説生成、適応的な参照に基づくグラウンディングという、連携する段階に分解し、タスクの複雑性がそれを要する場合にのみ外部ガイダンスを呼び出します。既存手法に内在する品質制御の欠如を克服するために、評価を編集ループの中に直接組み込みます。中間結果は、構造化されたフィードバックを通じて反復的に洗練され、構造および文脈における不整合を段階的に修正するクローズドループ(閉ループ)プロセスを形成します。異常挿入および人体姿勢の切り替えタスクにおいて CAMEO を評価します。複数の強力な編集バックボーンと、独立した評価モデル群において、CAMEO は平均で複数の最先端モデルに比べ 205%高い勝率を一貫して達成し、条件付き画像編集における頑健性、制御可能性、構造的信頼性の向上を示します。