SentiAvatar: 表現力豊かでインタラクティブなデジタルヒューマンに向けて
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SentiAvatar は、表情・ジェスチャー・音声に同期した動きをリアルタイムで生成できる「表現力のある対話型3Dデジタルヒューマン」構築フレームワークを提案しています。
- 研究では、(1) 大規模で高品質なマルチモーダルデータ不足、(2) 意味(セマンティクス)から動作への堅牢な対応、(3) 発話の韻律(プロソディ)とモーションのフレーム同期という3課題を同時に扱っています。
- その解決のために、単一キャラクタのオプティカルモーションキャプチャで収集した対話コーパス SuSuInterActs(21Kクリップ、37時間)を構築し、さらに Motion Foundation Model を 200K+ モーション系列で事前学習しています。
- 音声を考慮した plan-then-infill(文単位の計画とフレーム単位の補間)により、文脈上適切な動作と発話リズムの同期を両立させ、SuSuInterActs/BEATv2 で先行手法を上回る結果を報告しています。
- ソースコード、モデル、データセットが公開され、約6秒の出力を0.3秒で生成し、無制限のマルチターン・ストリーミングにも対応する点が示されています。



