Unify-Agent：世界に根ざした画像合成のための統一マルチモーダルエージェント

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成をエージェント的パイプライン（プロンプト理解、エビデンス探索、根拠に基づくリキャプション、合成）として捉え直すことで、世界に根ざした画像合成に取り組む統一マルチモーダルエージェント「Unify-Agent」を提案する。
マルチモーダルデータパイプラインと、推論／探索／生成の全プロセスを監督するための厳選されたエージェント軌跡143K件を用いた、専用の学習手法を報告する。
外部知識にもとづく根拠付けを明示的に要求する、文化的に重要でロングテールな事実概念の12カテゴリからなるベンチマーク「FactIP」を追加する。
実験結果として、Unify-Agent は複数のベンチマークおよび実世界の生成タスクにおいて、基礎となる統一マルチモーダルモデルに比べて大幅に改善し、クローズドソースモデルの“世界知識”能力により近づくと主張している。

概要: 統合的なマルチモーダルモデルは、高品質な画像を生成しながら、多様で複雑な現実世界の知識を理解するための自然で有望なアーキテクチャを提供します。しかし、それらは依然として主に固定されたパラメトリック知識に依存しているため、ロングテールかつ知識集約的な概念を含む現実世界の画像生成では苦戦しています。現実世界のタスクにおけるエージェントの幅広い成功に触発されて、私たちはこの制約に対処するためのエージェント的モデリングを探究します。具体的には、世界に根ざした画像合成のための統合マルチモーダルエージェントである Unify-Agent を提示します。これは、画像生成を、プロンプト理解、マルチモーダルな証拠探索、根拠に基づく再キャプション、最終合成から成るエージェント的パイプラインとして捉え直すものです。モデルを訓練するために、私たちは特注のマルチモーダルデータパイプラインを構築し、世界に根ざした画像合成のための 143K 件の高品質なエージェント軌跡を厳選することで、エージェント的生成プロセス全体に対する効果的な教師付けを可能にします。さらに、外部知識の根拠付けを明示的に要求する、文化的に重要でロングテールな事実概念の 12 カテゴリをカバーするベンチマーク FactIP を導入します。大規模な実験の結果、提案する Unify-Agent は、多様なベンチマークおよび現実世界の生成タスクにおいて、そのベースとなる統合モデルを大幅に上回ることが示され、また最強のクローズドソースモデルに近い世界知識の能力を達成します。世界に根ざした画像合成におけるエージェントベースのモデリングの初期の試みとして、本研究は、信頼性の高いオープンワールドのエージェント的画像合成を実現するために、推論・探索・生成を密に結合することの価値を強調しています。