Re$^2$MoGen:LLM推論と物理に配慮した改良によるオープンボキャブラリ・モーション生成

arXiv cs.RO / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、学習データの文章と大きく異なるモーション記述にも対応するための、オープンボキャブラリなテキストからモーション生成フレームワークRe$^2$MoGenを提案する。
  • 同手法は、モンテカルロ木探索によってLLMの推論能力を強化し、テキストプロンプトからモーションの初期キーフレームを生成するが、その際には推論を容易にするためにルートと数個の主要関節の位置のみを指定する。
  • 続いて人体姿勢モデルを事前分布(prior)として、計画したキーフレームから全身の姿勢を最適化して補完し、その不完全なモーションを用いて事前学習済みのモーション生成器を動的な時間整合(dynamic temporal matching)の目的で微調整し、時空間の補完を可能にする。
  • 最後に、物理に配慮した報酬を用いた強化学習の後段学習により、LLMが計画したモーションに含まれがちな物理的に不自然な部分を解消し、オープンボキャブラリ・モーション生成で最先端性能を達成する。

Abstract

テキストから動作(Text-to-motion; T2M)生成は、テキストによる記述を通じて目標キャラクターの挙動を制御することを目的としています。テキストと動作のペアデータセットを活用することで、既存のT2Mモデルは、学習データの分布内で高品質な動作を生成するという点で、目覚ましい性能を達成してきました。 しかし、動作記述が学習テキストと大きく異なる場合には、その性能が顕著に低下します。この問題に対処するために、本論文では、強化された大規模言語モデル(LLM)の推論を活用して、まず初期の動作計画を生成し、その後強化学習(RL)による事後学習で運動学的妥当性(physical plausibility)を洗練する、オープンボキャブラリな動作生成フレームワークRe^2MoGenを提案します。具体的に、Re^2MoGenは3つの段階から成ります。まず最初に、モンテカルロ木探索を用いて、テキストプロンプトに基づく動作の妥当なキーフレームを生成する際のLLMの推論能力を高めます。このとき、推論を容易にするために、ルートといくつかの主要関節の位置のみを指定します。次に、ヒューマンポーズモデルを事前知識(prior)として適用し、計画されたキーフレームに基づいて全身のポーズを最適化し、その結果得られる不完全な動作を用いて、動的時間整合(dynamic temporal matching)目的により、事前学習済みの動作生成器の微調整を監督します。これにより、時空間補完(spatiotemporal completion)が可能になります。最後に、物理に配慮した報酬(physics-aware reward)による事後学習を行い、LLMが計画した動作における物理的に不自然な点を取り除くために、動作品質を洗練します。大規模な実験により、本フレームワークが意味的に一貫した、かつ物理的に妥当な動作を生成でき、オープンボキャブラリな動作生成における最先端の性能を達成することを示します。