CoInteract：空間的に構造化された共同生成による、物理的に整合する人と物体の相互作用動画合成

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CoInteractは、人物の参照画像、商品の参照画像、テキストプロンプト、音声（スピーチ）を条件として、人と物体の相互作用（HOI）動画をエンドツーエンドで生成する枠組みを提案します。
同手法は、拡散モデルベースのHOI動画生成でよく起きる失敗（手や顔などの細部構造の不安定さ、手と物体の貫通のような物理的に不自然な接触）に焦点を当てています。
空間的に教師付けされたトークン経路制御により、領域ごとに軽量な専門家へ振り分けるHuman-Aware Mixture-of-Experts（MoE）を提案し、大きなパラメータ増なしに構造の精密さを高めます。
さらにSpatially-Structured Co-Generationとして、RGB見た目ストリームと補助的なHOI構造ストリームの二重ストリーム学習で相互作用の幾何学的な事前知識を注入し、推論時にはHOI分岐を取り除いて追加ゼロオーバーヘッドにします。
実験では、既存手法に比べて構造の安定性、論理的一貫性、相互作用の現実感が大きく改善することを示しています。

Abstract

人と物体の相互作用（HOI）ビデオの合成は、eコマース、デジタル広告、仮想マーケティングにおいて幅広い実用的価値を持ちます。しかし、現在の拡散モデルは、フォトリアルなレンダリング能力があるにもかかわらず、依然として（i）手や顔のような感受性の高い領域における構造の安定性、ならびに（ii）物理的にもっともらしい接触（例：手--物体の相互貫入の回避）において頻繁に失敗します。我々は、人参照画像、製品参照画像、テキストプロンプト、音声オーディオに条件付けされたHOIビデオ合成のためのエンドツーエンドフレームワークであるCoInteractを提案します。CoInteractは、Diffusion Transformer（DiT）バックボーンに埋め込まれた2つの補完的な設計を導入します。まず、空間的に教師ありのルーティングによりトークンを軽量で領域特化されたエキスパートへ振り分けるHuman-Aware Mixture-of-Experts（MoE）を提案し、最小限のパラメータ増加で微細な構造の忠実性を向上させます。次に、RGB外観ストリームと補助的なHOI構造ストリームの2つのストリームを共同でモデル化して、相互作用ジオメトリの事前知識を注入するデュアルストリーム学習パラダイムであるSpatially-Structured Co-Generationを提案します。学習中、HOIストリームはRGBトークンに注意を向け、その教師が共有バックボーン重みを正則化します。推論時には、ゼロオーバーヘッドでRGB生成を行うためにHOIブランチを削除します。実験結果は、CoInteractが構造の安定性、論理的一貫性、相互作用の現実味において、既存手法を大きく上回ることを示しています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/22Dailyインサイトを見る →

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

CoInteract：空間的に構造化された共同生成による、物理的に整合する人と物体の相互作用動画合成

要点

Abstract

💡 この記事が使われたインサイト

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer