coDrawAgents: 構成的画像生成のためのマルチエージェント対話フレームワーク

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • 本論文は coDrawAgents を紹介します。構成的な画像生成のためのマルチエージェント対話フレームワークで、4つの専門エージェント(Interpreter、Planner、Checker、Painter)を備えています。
  • 二つのモードをサポートします。直接のテキストから画像への生成経路と、レイアウトを意識したモードです。このモードでは Interpreter がプロンプトを属性豊富なオブジェクト記述に解析し、意味的優先度でオブジェクトをグループ化して共同生成を行います。
  • Planner は、同じ優先度レベルのオブジェクトに対してレイアウトを提案する分割統治戦略を用い、進化するキャンバスの文脈に基づいて意思決定を行います。
  • Checker は、空間的一致性と属性の整合性を検証し、レンダリング前にレイアウトを修正・洗練することで、明示的なエラー訂正を提供します。
  • GenEval および DPG-Bench に関する実験は、既存の手法に比べて、テキスト-画像の整合性、空間的精度、および属性結合の点で大幅な改善を示しています。

要旨: テキストから画像への生成は急速に進展してきたが、従来のモデルは複雑なシーンで複数のオブジェクトを忠実に組み合わせ、それらの属性を維持することにまだ苦労している。私たちは coDrawAgents を提案する。これは対話型のマルチエージェント・ダイアログ・フレームワークで、Interpreter、Planner、Checker、Painter の4つの専門エージェントが協力して構成生成を改善する。Interpreter は、直接のテキストから画像への経路と、レイアウトを意識したマルチエージェント処理のどちらを採るか適応的に判断する。レイアウト認識モードでは、プロンプトを属性豊富なオブジェクト記述子へ解析し、それらを意味的重要度で順位付けし、同じ意味的優先度レベルのオブジェクトを共同生成のためにグループ化する。Interpreter によって導かれた Planner は、分割統治戦略を採用し、同じ意味的優先度レベルを持つオブジェクトのレイアウトを段階的に提案しつつ、キャンバスの進化する視覚的文脈に基づいて意思決定を行う。Checker は、空間的一貫性と属性の整合性を検証し、レンダリング前にレイアウトを洗練させることで、明示的な誤り訂正機構を導入する。最後に Painter は、画像を段階的に合成し、新たに計画されたオブジェクトをキャンバスに組み込み、次の反復のためにより豊かな文脈を提供する。これらのエージェントは、レイアウトの複雑さを低減し、計画を視覚的文脈に根拠づけ、明示的な誤り訂正を可能にするという3つの重要な課題に対処する。GenEval および DPG-Bench のベンチマークでの広範な実験により、coDrawAgents は従来の手法と比較してテキストと画像の整合性、空間的正確性、および属性結合を大幅に改善することが示された。