SMP:物理ベースのキャラクター制御のための再利用可能なスコアマッチング運動プライオリ

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、物理ベースのキャラクター制御向けに、再利用可能でタスク非依存の運動(モーション)プライオリを学習する手法としてScore-Matching Motion Priors(SMP)を提案します。
  • 従来の敵対的イミテーション学習の多くがコントローラごとに再訓練を要し、参照モーションデータを下流タスクにも保持する必要があるのに対し、SMPはモーションデータで一度だけ事前学習すれば、その後は再利用できモデル変更が不要です。
  • SMPは、事前学習済みのモーション拡散モデルとscore distillation sampling(SDS)を用いて報酬関数を生成し、このモデルを凍結したまま新しい制御ポリシーの学習に利用できます。
  • 物理シミュレーションされたヒューマノイドでの実験により、大規模データで学習した一般的な運動プライオリから、スタイル別のプライオリへと転用できるほか、元データにない新しいスタイルも複数スタイルの合成によって作れることを示しています。
  • 著者らは、SMPで生成されるモーションが、多様な制御タスクにおいて最先端の敵対的イミテーション学習と同等レベルの品質であると報告しています。

Abstract

自然な振る舞いを生成する方向へエージェントを導くことができるデータ駆動型の運動(モーション)事前分布は、生命のようなバーチャルキャラクターを作り出すうえで極めて重要な役割を果たします。敵対的模倣学習は、参照モーションデータから運動事前分布を学習するための、非常に効果的な手法として広く用いられてきました。しかし、例外がわずかしかない限り、敵対的な事前分布は新しいコントローラごとに再学習が必要となるため、再利用性が制限されます。また、下流タスクに適用する際には、参照モーションデータを保持しておく必要が生じます。本研究では、Score-Matching Motion Priors(SMP)を提案します。SMPは、事前学習済みのモーション拡散モデルと、score distillation sampling(SDS)を活用することで、再利用可能なタスク非依存型の運動事前分布を作成します。SMPは、任意の制御方策やタスクとは独立に、モーションデータセット上で事前学習できます。学習後は、SMPを固定(frozen)したまま保持し、汎用的な報酬関数として再利用することで、下流タスクにおいて自然な振る舞いを生成する新しい方策を学習できます。我々は、大規模データセットで学習した一般的な運動事前分布が、さまざまなスタイル固有の事前分布へと転用できることを示します。さらに、SMPは元のデータセットに存在しない新しいスタイルを合成するために、異なるスタイルを組み合わせることができます。本手法は、最先端の敵対的模倣学習手法に匹敵する高品質なモーションを生成する、再利用可能でモジュール化された運動事前分布を作り出せることを示します。実験では、物理シミュレーションされたヒューマノイドキャラクターを用いた、多様な一連の制御タスクにわたってSMPの有効性を実証します。動画は https://youtu.be/jBA2tWk6vzU で視聴可能です。