InterDyad：中間の視覚的ガイダンスを照会することで実現する、対話的な二者間スピーチ・トゥ・ビデオ生成

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、二者間（2人）のインタラクティブな状況に特化したスピーチ・トゥ・ビデオ生成フレームワーク「InterDyad」を提案する。既存手法では、個人間の依存関係やきめ細かなリアクション制御が難しいという課題がある。
InterDyadは、参照動画から抽出したアイデンティティ非依存の運動プライオリを用いて、映像挙動を再現する「インタラクティビティ・インジェクタ」を利用し、より自然な相互作用のダイナミクスを可能にする。
「MetaQuery」に基づくモダリティ整合コンポーネントは、マルチモーダル・ラージ言語モデル（MLLM）を活用して、会話音声から言語的意図を蒸留し、それを反応の正確なタイミングと適切さへと変換する。
極端な頭部姿勢におけるリップシンクを扱うために、本手法は「Role-aware Dyadic Gaussian Guidance（RoDG）」を導入し、同期と空間的整合性を改善する。
著者らは最先端手法に対して顕著な性能向上を報告し、二者間のインタラクション品質を測定する新しい指標を含む専用の評価スイートを追加している。さらに、プロジェクトページにはデモ動画が掲載されている。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to