CoInteract:空間的に構造化された共同生成による、物理的に整合する人と物体の相互作用動画合成

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CoInteractは、人物の参照画像、商品の参照画像、テキストプロンプト、音声(スピーチ)を条件として、人と物体の相互作用(HOI)動画をエンドツーエンドで生成する枠組みを提案します。
  • 同手法は、拡散モデルベースのHOI動画生成でよく起きる失敗(手や顔などの細部構造の不安定さ、手と物体の貫通のような物理的に不自然な接触)に焦点を当てています。
  • 空間的に教師付けされたトークン経路制御により、領域ごとに軽量な専門家へ振り分けるHuman-Aware Mixture-of-Experts(MoE)を提案し、大きなパラメータ増なしに構造の精密さを高めます。
  • さらにSpatially-Structured Co-Generationとして、RGB見た目ストリームと補助的なHOI構造ストリームの二重ストリーム学習で相互作用の幾何学的な事前知識を注入し、推論時にはHOI分岐を取り除いて追加ゼロオーバーヘッドにします。
  • 実験では、既存手法に比べて構造の安定性、論理的一貫性、相互作用の現実感が大きく改善することを示しています。

Abstract

人と物体の相互作用(HOI)ビデオの合成は、eコマース、デジタル広告、仮想マーケティングにおいて幅広い実用的価値を持ちます。しかし、現在の拡散モデルは、フォトリアルなレンダリング能力があるにもかかわらず、依然として(i)手や顔のような感受性の高い領域における構造の安定性、ならびに(ii)物理的にもっともらしい接触(例:手--物体の相互貫入の回避)において頻繁に失敗します。我々は、人参照画像、製品参照画像、テキストプロンプト、音声オーディオに条件付けされたHOIビデオ合成のためのエンドツーエンドフレームワークであるCoInteractを提案します。CoInteractは、Diffusion Transformer(DiT)バックボーンに埋め込まれた2つの補完的な設計を導入します。まず、空間的に教師ありのルーティングによりトークンを軽量で領域特化されたエキスパートへ振り分けるHuman-Aware Mixture-of-Experts(MoE)を提案し、最小限のパラメータ増加で微細な構造の忠実性を向上させます。次に、RGB外観ストリームと補助的なHOI構造ストリームの2つのストリームを共同でモデル化して、相互作用ジオメトリの事前知識を注入するデュアルストリーム学習パラダイムであるSpatially-Structured Co-Generationを提案します。学習中、HOIストリームはRGBトークンに注意を向け、その教師が共有バックボーン重みを正則化します。推論時には、ゼロオーバーヘッドでRGB生成を行うためにHOIブランチを削除します。実験結果は、CoInteractが構造の安定性、論理的一貫性、相互作用の現実味において、既存手法を大きく上回ることを示しています。