広告

MS-CustomNet:階層的な関係セマンティクスによる、制御可能なマルチ被写体カスタマイズ

arXiv cs.CV / 2026/3/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MS-CustomNet は、複数被写体のカスタマイズ向けに設計された拡散ベースのテキストから画像生成フレームワークであり、それぞれの被写体のアイデンティティを保持しつつ、被写体同士の関係や空間的な配置を明示的に制御できる。
  • この手法により、ユーザーが用意した複数のオブジェクトをゼロショットで統合でき、暗黙的またはハードに制御できないシーンのレイアウトに頼るのではなく、被写体間の階層的な構成(コンポジション)と正確な配置をユーザーが定義できる。
  • 複雑な被写体間関係の学習を支えるため、著者らは COCO から作成した MSI データセットを導入し、マルチ被写体の合成(コンポジitional)に対する教師信号に焦点を当てている。
  • 報告された結果では、制御性と忠実度が向上しており、アイデンティティ保持について DINO-I スコア 0.61、多被写体カスタマイズ課題における位置制御について YOLO-L スコア 0.94 が示されている。

要旨: 拡散ベースのテキストから画像への生成は大きく進歩しましたが、多数の異なる被写体を用いてシーンをカスタマイズしつつ、それらの相互作用に関する細かな制御を維持することは依然として困難です。既存の手法では、多くの場合、被写体間の合成構造や空間的な関係について、ユーザーが明示的に定義した制御を提供することが難しいという問題があります。これに対処するために、本論文では、複数被写体のカスタマイズのための新しい枠組みであるMS-CustomNetを提案します。MS-CustomNetは、複数のユーザー提供オブジェクトをゼロショットで統合できるだけでなく、生成画像内でこれらの階層的な配置と空間的な配置をユーザーが明示的に定義できるようにすることを、重要なポイントとして実現します。本アプローチは、ユーザーが指定した被写体間の合成を学習し実行することで、個々の被写体のアイデンティティを保持することを保証します。また、そのような複雑な複数被写体の合成の学習を促進するために、COCOから派生したMSIデータセットも提示します。MS-CustomNetは、複数被写体画像生成における、より高度できめ細かな制御を提供します。本手法は、複数被写体カスタマイズのタスクにおいて、アイデンティティ保持のためのDINO-Iスコアが0.61、位置制御のためのYOLO-Lスコアが0.94となり、正確にユーザーが指示した複数被写体の合成および空間制御を伴う、高忠実度の画像を生成する優れた能力を示しています。

広告