CoInteract:空間的に構造化された共同生成による、物理的に整合する人と物体の相互作用動画合成
arXiv cs.CV / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CoInteractは、人物の参照画像、商品の参照画像、テキストプロンプト、音声(スピーチ)を条件として、人と物体の相互作用(HOI)動画をエンドツーエンドで生成する枠組みを提案します。
- 同手法は、拡散モデルベースのHOI動画生成でよく起きる失敗(手や顔などの細部構造の不安定さ、手と物体の貫通のような物理的に不自然な接触)に焦点を当てています。
- 空間的に教師付けされたトークン経路制御により、領域ごとに軽量な専門家へ振り分けるHuman-Aware Mixture-of-Experts(MoE)を提案し、大きなパラメータ増なしに構造の精密さを高めます。
- さらにSpatially-Structured Co-Generationとして、RGB見た目ストリームと補助的なHOI構造ストリームの二重ストリーム学習で相互作用の幾何学的な事前知識を注入し、推論時にはHOI分岐を取り除いて追加ゼロオーバーヘッドにします。
- 実験では、既存手法に比べて構造の安定性、論理的一貫性、相互作用の現実感が大きく改善することを示しています。