マルチリファレンスおよびマルチショット動画生成におけるコンテキストコントローラとして位置埋め込みを再考する

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はマルチリファレンス・マルチショットの動画生成を調査し、参照画像の見た目が非常に似ている場合に起きる「参照の混同」を主要な失敗モードとして特定する。
  • セマンティックな検索だけでは不十分であることを論じる。セマンティックに類似したトークンが原因で、参照が視覚的に近くても誤ったコンテキストをモデルが取得してしまう可能性があるためである。
  • これを軽減するため、著者らはPoCo(Position Embedding as a Context Controller)を提案する。これは位置埋め込みを追加のトークンレベルの文脈制御として用い、より正確なマッチングを可能にする。
  • PoCoに基づいて構築された、その結果のマルチリファレンス・マルチショット動画生成モデルは、視覚的特徴が極めて類似したキャラクタを確実に制御することを目的としている。
  • 実験により、PoCoは複数のベースライン手法と比較して、ショット間の一貫性と参照忠実度を向上させることが示される。