要旨: 音声駆動の人間のビデオ生成は、モノローグ(独白)シナリオにおいて目覚ましい成功を収めてきました。これは主に、高性能なビデオ生成基盤モデルの進歩によって支えられています。モノローグを超えて本物の人間同士のコミュニケーションを扱う場合、それは本質的にフルデュプレックス(双方向同時)のインタラクティブなプロセスであり、バーチャルエージェントには、自身の発話を行うだけでなく、入ってくる会話の音声に自然に反応することが求められます。既存のほとんどの手法は、従来の音声駆動パラダイムを「聴く」状況へ単に拡張したものに留まっています。しかし、厳密なフレーム間の対応(フレームごとのアラインメント)に依存すると、長期的な会話ダイナミクスに対するモデルの応答が硬直化します。一方で、直接グローバル注意(グローバルアテンション)を導入すると、口の同期(リップシンク)が壊滅的に劣化します。話す行動と聴く行動の間に固有の時間的な「スケールの不一致(Temporal Scale Discrepancy)」があることを踏まえ、マルチヘッド・ガウスカーネルを導入し、この物理的な直観をモデルへ段階的な時間的帰納バイアスとして明示的に注入します。これに基づいて、話すことと聴くことのためのデュアルストリームの音声入力を同時に処理できるフルデュプレックスなインタラクティブ・バーチャルエージェントを構築します。さらに、完璧にデカップル(分離)された音声トラックと背景音声トラックを備える、厳密にクリーニングされた Talking-Listening データセット VoxHear を導入します。大規模な実験の結果、提案手法は強力な時間的アラインメントと深い文脈意味をうまく融合でき、高度に自然で応答性の高いフルデュプレックス・インタラクティブなデジタルヒューマンを生成する新たな最先端を確立することを示します。プロジェクトページは https://warmcongee.github.io/beyond-monologue/ で利用可能です。
モノローグを超えて:会話の音声コンテキストに応じたカーネルによるインタラクティブな話者・聴者アバター生成
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存の音声駆動による人の動画生成の限界に対し、モノローグのみの出力から、双方向のフルデュプレックスなインタラクティブ・アバターへと拡張し、話すだけでなく入力される会話の音声に応答することを目指す。
- 話す(トーキング)と聴く(リスニング)における時間スケールの不一致を扱うため、時間的な帰納的バイアスを注入するマルチヘッド・ガウスカーネルを提案し、リジッドな長距離の応答挙動を避けつつ、口の動きの同期(リップシンク)を維持する。
- 著者らは、話すためと聴くためのデュアルストリーム音声を同時に処理する仮想エージェントを構築し、生成されるデジタルヒューマンにおけるより自然な会話のターンテイキングを可能にする。
- インタラクティブな「話す–聴く」設定に向けた学習・評価を改善するため、音声と背景音声を完全にデカップル(分離)した、クリーン化済みのVoxHearデータセットを導入する。
- 実験では、本手法が、高い自然さと応答性を備えたフルデュプレックスのインタラクティブ・デジタルヒューマン生成において新たな最先端(SOTA)を達成すると主張している。




