物語性を持つプロダクト・グリッド・コラージュ生成のための自己推論型エージェントフレームワーク

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、パネル間でも物語の一貫性を保つナラティブ駆動のプロダクト・グリッド・コラージュを生成する、自己推論型のエージェントフレームワークを提案している。
各パネルを個別に生成するのではなく、共有されるビジュアルスタイルと制約を意識したプロンプトにもとづいて、コラージュ全体を単一の統合画像として作る。
システムは、プロダクトのパックショットと名称から「プロダクト・ナラティブ・フレームワーク」を構築し、アイデンティティ、使用文脈、環境を明示的にモデル化して、それを連携したグリッドへと翻訳する。
出力はコンテンツ妥当性と写真品質の両面で評価され、基準を満たさない場合は失敗要因の特定と狙いを定めた改良を行うことで反復的に改善する。
実験では、ダイレクト・プロンプトのベースラインと比べて、美的品質、物語性の豊かさ、グリッド間の視覚的整合性が一貫して向上すると報告している。

要旨: ナラティブ（物語）駆動のプロダクト撮影は、現代のマーケティングにおいて広く見られるパラダイムとなっています。なぜなら、筋の通った視覚的なストーリーテリングが製品価値を伝え、消費者との感情的なつながりを確立するのに役立つからです。しかし、既存の画像生成手法では、構造化された物語の計画やパネル（区画）間の協調をサポートできないことが多く、その結果として、ストーリー性の弱さや視覚的な不整合が生じがちです。実務上、物語性のあるプロダクト撮影はしばしばマルチグリッドのコラージュとして提示されます。そこでは複数の視点やシーンが連携して、製品の物語を共同で伝えます。グリッド間の視覚的一貫性と、全体構図の美的な調和を確保するために、私たちはコラージュを独立に生成されたパネルの寄せ集めとして構成するのではなく、単一の統一画像として生成します。ナラティブなプロダクト・グリッド・コラージュ生成のための、自律的に自己推論するエージェント型フレームワークを提案します。製品のパックショットとその名称が与えられると、システムはまず、製品のアイデンティティ、使用状況の文脈、場面となる環境を明示的に表現する「プロダクト・ナラティブ・フレームワーク」を構築し、それを共有された視覚スタイルによって統制される補完的なグリッドへと翻訳します。次に、制約を考慮したプロンプトを編成し、コラージュを共同で合成する生成モデルに投入します。生成された出力は、内容の妥当性と写真としての品質の両方について評価され、進行するか、改善のために手を加えるかを決める明示的なゲートが用意されています。評価に失敗した場合、システムは失敗要因を帰属（アトリビューション）し、狙いを定めた改良を適用します。これにより、反復的な自己省察を通じて段階的な改善が可能になります。実験の結果、私たちのフレームワークは、直接プロンプトを行うベースラインと比べて、美的品質、物語の豊かさ、そして視覚的な一貫性を一貫して向上させることが示されました。