SentiAvatar: Towards Expressive and Interactive Digital Humans
arXiv cs.CV / 4/6/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- SentiAvatar は、表情・ジェスチャー・音声に同期した動きをリアルタイムで生成できる「表現力のある対話型3Dデジタルヒューマン」構築フレームワークを提案しています。
- 研究では、(1) 大規模で高品質なマルチモーダルデータ不足、(2) 意味(セマンティクス)から動作への堅牢な対応、(3) 発話の韻律(プロソディ)とモーションのフレーム同期という3課題を同時に扱っています。
- その解決のために、単一キャラクタのオプティカルモーションキャプチャで収集した対話コーパス SuSuInterActs(21Kクリップ、37時間)を構築し、さらに Motion Foundation Model を 200K+ モーション系列で事前学習しています。
- 音声を考慮した plan-then-infill(文単位の計画とフレーム単位の補間)により、文脈上適切な動作と発話リズムの同期を両立させ、SuSuInterActs/BEATv2 で先行手法を上回る結果を報告しています。
- ソースコード、モデル、データセットが公開され、約6秒の出力を0.3秒で生成し、無制限のマルチターン・ストリーミングにも対応する点が示されています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.




