OneHOI:人と物体の相互作用生成および編集を統合する

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsModels & Research

要点

  • OneHOIは、人と物体の相互作用(HOI)生成とテキストに基づくHOI編集を、単一の条件付きノイズ除去プロセスに統合する統一型拡散トランスフォーマーフレームワークを提案する。
  • この手法は、役割/インスタンスを認識するHOIトークン、レイアウトに基づくアクションのグラウンディング、相互作用トポロジを扱う構造化HOIアテンション、そして複数HOIシーンを分離するためのHOIROPEを用いるRelational Diffusion Transformer(R-DiT)を中核としている。
  • HOI-Edit-44Kデータセットでモダリティ・ドロップアウトとともに共同学習し、さらに追加のHOIおよび物体中心データを加えることで、OneHOIは、レイアウト誘導、レイアウト非依存、任意マスク、そして混合条件(HOI+物体のみ)の制御に対応できる。
  • 本論文は、HOI生成タスクと編集タスクの双方で最先端の性能を報告しており、プロジェクトWebサイトを通じてコードの公開も行っている。