LPM 1.0: 動画ベースのキャラクター性能(パフォーマンス)モデル

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、従来の3Dキャラクターパイプラインを回避するために、音声・映像による会話から意図、感情、パーソナリティを学習するLPM 1.0(Large Performance Model)を提案する。
  • 「パフォーマンスのトリレンマ」を掲げ、その解決を目標として、表現力、リアルタイム推論、長期的なアイデンティティ安定性を同時に向上させることに取り組む。対象は、単一人物のフルデュプレックスな音声・映像会話におけるパフォーマンスである。
  • LPM 1.0は、厳格なフィルタリングとアイデンティティ認識に基づくマルチ参照抽出により、人間中心のマルチモーダル・データセットを構築し、マルチモーダル条件付けによる制御可能でアイデンティティ一貫性のある生成のために、17BパラメータのDiffusion Transformerを学習する。
  • 本モデルは、低遅延で無限長のインタラクションを実現するオンラインLPM因果ストリーミング生成器へ蒸留される。これにより、ユーザの音声および合成音声から、リアルタイムの「視聴/発話」型の映像合成を可能にする。
  • さらに、本研究はインタラクティブなキャラクター性能のための新しいベンチマークであるLPM-Benchを提案し、評価した各次元において最先端の結果を報告する。