ASTRA:検索強化ポーズ誘導と分離型位置埋め込みによるマルチサブジェクト生成の強化

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数の被写体を対象とし、被写体主導で画像生成を行う課題を扱っている。従来のモデルでは、複数の被写体が複雑かつ異なる振る舞いをするときに、しばしばアイデンティティが混ざり合い、ポーズが歪む問題がある。
  • 提案手法ASTRAは、検索強化ポーズ誘導と専用の位置埋め込みを組み合わせることで、単一のDiffusion Transformer内において被写体の外観とポーズ構造を分離する枠組みである。
  • ASTRAはRetrieval-Augmented Pose(RAG-Pose)パイプラインを用い、明示的な構造的事前知識を与えることで、外観とポーズの信号間の絡み合いを低減する。
  • さらに、Enhanced Universal Rotary Position Embedding(EURoPE)を導入し、アイデンティティ・トークンを空間上の位置から切り離す一方で、ポーズ・トークンを画像キャンバスに結び付ける。また、Disentangled Semantic Modulation(DSM)アダプタにより、テキスト条件付けストリームを通じてアイデンティティを保持する。
  • 実験では、COCOベースの複雑ポーズベンチマークにおいて、アイデンティティの高い忠実性とDreamBenchでのテキスト整合性を維持しつつ、ポーズ遵守に関して最先端の性能が報告されている。