人とロボットのインタラクションのための、3Dダイナミック・ビゼムと同化(コアルチキュレーション)モデリングに基づく現実的な唇運動生成

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、3Dダイナミック・ビゼム・モデリングとコアルチキュレーションに基づいて、人型ロボット向けの音声駆動型の唇運動生成フレームワークを提案し、非言語的なインタラクションにおける唇の現実的な同期を実現する。
  • 中国語の発音理論を活用することで、ARKit標準に整合した一貫性のある3Dダイナミック・ビゼム・ライブラリを構築し、連続発話に対する信頼できる事前軌道(prior trajectory)を提供することを目的とする。
  • 連続発話における運動の競合を解決するため、初声—終声(Shengmu–Yunmu)の分離(デカップリング)とエネルギー・モデュレーションを組み合わせたコアルチキュレーション機構を導入する。
  • 提案手法には、空間的な高次元の唇運動を、人型ヘッド・プラットフォーム上の14自由度(14-DOF)の唇アクチュエーション・システムへ写像するリタゲティング戦略が含まれており、PCCおよびMAJの指標を用いたアブレーション研究により性能を検証する。
  • 著者らは3Dダイナミック・ビゼム・ライブラリとデプロイメント動画をGitHubで公開しており、本アプローチが軽量で実運用の人とロボットのインタラクションに適したものであると位置づけている。

要旨: 現実的な口パク(リップシンク)は、人型ロボットの自然な人-ロボット間の非言語的インタラクションに不可欠である。本論文は、この必要性に動機づけられ、3D動的ビジームと共同調音(コアルチキュレーション)モデリングに基づく口唇運動生成の枠組みを提案する。中国語の発音理論を分析することで、ARKit標準に基づく3D動的ビジーム・ライブラリを構築し、唇の整合的な事前軌道を提供する。連続する発話ストリーム内で運動の競合を解決するために、初声-終声(Shengmu-Yunmu)の分離とエネルギー調節を組み込むことで共同調音のメカニズムを開発する。高次元の空間的な唇の運動を、人型ヘッドプラットフォームの14自由度(DOF)の口唇アクチュエーション・システムへ写像(リタゲティング)する戦略を確立した後、提案アーキテクチャの効率と精度を、ピアソン相関係数(PCC)および平均絶対ジャーク(MAJ)という指標を用いた定量的なアブレーション実験により、実験的に検証し、その有効性を示す。本研究は、人型ロボットの音声駆動型口唇運動生成に対して、軽量で効率的かつ非常に実用的なパラダイムを提供する。3D動的ビジーム・ライブラリおよび実環境での導入・展開動画は {https://github.com/yuesheng21/Phoneme-to-Lip-14DOF} で利用可能である