GDPO-Listener:自己回帰型フローマッチングとグループ報酬デカップル型方策最適化による表現力のあるインタラクティブな頭部生成

arXiv cs.CV / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、二者間の仮想ヒューマン対話において、特に「聞き手」のモーションの現実味を高める、表現力のある3D頭部動作生成のための新しい枠組みGDPO-Listenerを提案する。
  • 頭部モーション生成を可能にするために、安定した教師あり学習を実現するAuto-Regressive Flow Matchingアーキテクチャを用いる。
  • 聞き手の「平均への回帰」や静的な顔の崩壊(static-face collapse)に対処するため、本手法では、FLAMEパラメータ群ごとに報酬正規化を分離し、高分散の表現力あるモーションを促すGroup reward-Decoupled Policy Optimization(GDPO)を適用する。
  • また、明示的な意味テキストによる制御にも対応しており、与えられたテキストに整合したカスタマイズされた応答を可能にする。
  • Seamless InteractionおよびDualTalkデータセットでの実験により、長期的な運動学的分散、視覚的な表現力、意味制御性のいずれにおいても、ベースラインより優れた性能が示される。

要旨: 双方向(ダイアディック)インタラクションにおける、現実的な3D頭部動作の生成は、バーチャルヒューマン合成において大きな課題である。近年の手法は話す(スピーキング)頭部では印象的な結果を達成しているものの、聞き手の動作においてしばしば `平均への回帰(Regression-to-the-Mean)` の問題に悩まされ、静止した顔へと崩れてしまい、複雑な非言語動作のためのパラメータ空間が欠けている。本論文では、非常に表現力の高い話す・聞く動作生成を実現する新しい枠組み GDPO-Listener を提案する。まず、安定した教師あり学習を可能にする自己回帰型フローマッチング(Auto-Regressive Flow Matching)アーキテクチャを導入する。次に、運動学的な静止(kinematic stillness)を克服するために、グループ報酬 デカップル化方策最適化(Group reward-Decoupled Policy Optimization: GDPO)を適用する。異なる FLAME パラメータ群にわたって報酬正規化を分離することで、GDPO は高分散の表現的な生成を明示的に強く促す。最後に、カスタマイズ可能な応答のための明示的なセマンティックなテキスト制御を可能にする。Seamless Interaction および DualTalk の各データセットにわたる大規模な評価により、長期的な運動学的分散、視覚的表現力、セマンティックな制御可能性の点で、既存のベースラインを上回る性能が示される。

広告