Abstract
テキストから動作(Text-to-motion; T2M)生成は、テキストによる記述を通じて目標キャラクターの挙動を制御することを目的としています。テキストと動作のペアデータセットを活用することで、既存のT2Mモデルは、学習データの分布内で高品質な動作を生成するという点で、目覚ましい性能を達成してきました。 しかし、動作記述が学習テキストと大きく異なる場合には、その性能が顕著に低下します。この問題に対処するために、本論文では、強化された大規模言語モデル(LLM)の推論を活用して、まず初期の動作計画を生成し、その後強化学習(RL)による事後学習で運動学的妥当性(physical plausibility)を洗練する、オープンボキャブラリな動作生成フレームワークRe^2MoGenを提案します。具体的に、Re^2MoGenは3つの段階から成ります。まず最初に、モンテカルロ木探索を用いて、テキストプロンプトに基づく動作の妥当なキーフレームを生成する際のLLMの推論能力を高めます。このとき、推論を容易にするために、ルートといくつかの主要関節の位置のみを指定します。次に、ヒューマンポーズモデルを事前知識(prior)として適用し、計画されたキーフレームに基づいて全身のポーズを最適化し、その結果得られる不完全な動作を用いて、動的時間整合(dynamic temporal matching)目的により、事前学習済みの動作生成器の微調整を監督します。これにより、時空間補完(spatiotemporal completion)が可能になります。最後に、物理に配慮した報酬(physics-aware reward)による事後学習を行い、LLMが計画した動作における物理的に不自然な点を取り除くために、動作品質を洗練します。大規模な実験により、本フレームワークが意味的に一貫した、かつ物理的に妥当な動作を生成でき、オープンボキャブラリな動作生成における最先端の性能を達成することを示します。