SentiAvatar: 表現力豊かでインタラクティブなデジタルヒューマンに向けて

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SentiAvatar は、表情・ジェスチャー・音声に同期した動きをリアルタイムで生成できる「表現力のある対話型3Dデジタルヒューマン」構築フレームワークを提案しています。
  • 研究では、(1) 大規模で高品質なマルチモーダルデータ不足、(2) 意味(セマンティクス)から動作への堅牢な対応、(3) 発話の韻律(プロソディ)とモーションのフレーム同期という3課題を同時に扱っています。
  • その解決のために、単一キャラクタのオプティカルモーションキャプチャで収集した対話コーパス SuSuInterActs(21Kクリップ、37時間)を構築し、さらに Motion Foundation Model を 200K+ モーション系列で事前学習しています。
  • 音声を考慮した plan-then-infill(文単位の計画とフレーム単位の補間)により、文脈上適切な動作と発話リズムの同期を両立させ、SuSuInterActs/BEATv2 で先行手法を上回る結果を報告しています。
  • ソースコード、モデル、データセットが公開され、約6秒の出力を0.3秒で生成し、無制限のマルチターン・ストリーミングにも対応する点が示されています。

Abstract

本稿では、表情豊かなインタラクティブ3Dデジタルヒューマンを構築するためのフレームワークであるSentiAvatarを提示し、これを用いて、実時間で話し、身振りを行い、感情表出する仮想キャラクタSuSuを作成します。このようなシステムの実現は依然として困難です。なぜなら、それには次の3つの主要課題を同時に解決する必要があるからです。すなわち、大規模で高品質なマルチモーダルデータの欠如、堅牢なセマンティックからモーションへの対応付け、そしてフレーム単位のきめ細かなモーション‐プロソディ同期です。これらの課題を解決するために、まず、単一キャラクタの周囲で光学式モーションキャプチャによって収録した対話コーパスであるSuSuInterActs(21Kクリップ、37時間)を構築します。このコーパスは、同期された音声、全身動作、顔の表情を含みます。次に、200K+のモーションシーケンスでMotion Foundation Modelを事前学習し、会話の範囲を大きく超える豊富なアクションの事前知識を与えます。さらに、文レベルの意味論的な計画立案と、フレームレベルのプロソディに基づく補間を切り離す、音声認識に注意を向けた「plan-then-infill(計画してから補間する)」アーキテクチャを提案します。これにより、生成された動作は意味論的に適切であり、かつ音声とのリズム的な整合も取れます。実験の結果、SentiAvatarはSuSuInterActs(R@1 43.64%、最良のベースラインの約2倍)およびBEATv2(FGD 4.941、BC 8.078)の両方で最先端の性能を達成し、無制限のマルチターン・ストリーミングで0.3秒で6秒分の出力を生成できることが示されました。ソースコード、モデル、データセットは https://sentiavatar.github.io で利用可能です。