グループ編集:複数の画像を一度に編集する
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ポーズ・視点・レイアウトが大きく異なる場合でも、関連する複数の画像に対して一貫した統一的な編集を行うためのフレームワーク「GroupEditing」を提案する。
- VGGTの明示的な幾何学的対応関係に加え、画像グループを疑似動画として扱い、事前学習済みの動画モデルから得られる時間的一貫性の事前知識を用いることで、暗黙的な関係を取り込む。
- 新しい融合メカニズムによって、VGGTの幾何学的手がかりを動画モデルへ注入し、意味的に整合した領域に対する編集の正確な適用を改善する。
- 著者らは、大規模学習のための「GroupEditData」(高品質なマスクと詳細なキャプション)と、グループレベルの編集品質と一貫性を評価するための「GroupEditBench」を提供する。
- 画像間でのアイデンティティを維持するために、位置合わせを強化したRoPEモジュールを追加し、実験によりGroupEditingが、視覚品質・クロスビューの一貫性・意味的整合の点で従来手法を上回ることを示す。
