広告

アイデンティティが崩壊するとき:マルチ被写体パーソナライズのストレステスト用ベンチマーク

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、被写体主導のテキストから画像への拡散モデルに対する既存の評価が、グローバルなCLIP指標では局所的な「アイデンティティ崩壊」や、マルチ被写体の絡み合い(entanglement)に起因する失敗モードを捉えきれないため、性能を過大評価していると主張する。
  • 「錯覚としてのスケーラビリティ(Illusion of Scalability)」を特定する。モデルは2〜4被写体では機能するものの、6〜10被写体へスケールした場合、あるいは複雑な物理相互作用(例:遮蔽や相互作用)をモデル化するよう求められた場合には、壊滅的に劣化する。
  • この問題をストレステストするために、著者らは、被写体数や相互作用の難易度が異なる75のプロンプトからなるベンチマークを構築する。カテゴリはNeutral(中立)、Occlusion(遮蔽)、Interaction(相互作用)である。
  • 新たな指標としてSubject Collapse Rate(SCR)を提案する。DINOv2の構造的事前知識を用いることで、局所的なアテンションの漏れ(local attention leakage)によるアイデンティティの均質化(homogenization)をより適切に検出し、罰則を与えられるようにする。
  • 複数の最先端モデルでの結果から、シーンの複雑さが増すにつれてアイデンティティの忠実性が急激に低下し、SCRは10被写体で100%に近づくことが示される。著者らは、この現象をグローバルな注意(attention)ルーティングによる意味的ショートカットが原因だとしている。

要旨: 主体(サブジェクト)駆動のテキストから画像への拡散モデルは、単一のアイデンティティを保持する点で目覚ましい成功を収めてきました。しかし、複数の相互作用する主体を合成する能力は、ほとんど未調査であり、かつ非常に困難です。既存の評価プロトコルは通常、グローバルなCLIP指標に依存していますが、局所的なアイデンティティの崩壊に鈍感であり、多主体の絡み合い(エンタンングルメント)の深刻さを捉えることができません。本論文では、現在のモデルに見られる広範な「拡張性の錯覚(Illusion of Scalability)」を特定します。すなわち、これらのモデルは単純なレイアウトで2〜4主体の合成に優れている一方で、6〜10主体にスケールした場合、または複雑な物理的相互作用が課された場合には、壊滅的なアイデンティティ崩壊が生じます。この失敗モードを体系的に明らかにするために、主体数と相互作用の難度(中立、遮蔽、相互作用)を変化させて分布させた75のプロンプトからなる、厳密なストレステスト用ベンチマークを構築します。さらに、標準的なCLIPベース指標はこの課題に対して本質的に不適切であることを示します。これらは、たとえばジェネリックなクローンを生成するなど、意味的には正しいもののアイデンティティが崩壊した画像に対して高いスコアを与えがちだからです。これに対処するために、DINOv2の構造的な事前知識に基づく新しい評価指標「Subject Collapse Rate(SCR)」を導入します。SCRは、局所的な注意の漏れ(attention leakage)や均質化を厳密に罰します。最先端モデル(MOSAIC、XVerse、PSR)を広範に評価した結果、シーンの複雑さが増すにつれてアイデンティティの忠実性が急激に低下し、10主体ではSCRが100%に近づくことがわかりました。この崩壊は、グローバルな注意ルーティングに内在する意味的ショートカットに起因すると分析され、今後の生成アーキテクチャには、明示的な物理的なもつれ(ディスエンタングルメント)の必要性が緊急に求められていることが強調されます。

広告