MotionRFT：テキストからの動作生成に向けた統一強化ファインチューニング

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MotionRFTは、意味的一貫性、現実性、人間の嗜好との整合といった目的に対する教師あり事前学習の不足を解消する、テキストから動作生成のための強化ファインチューニング手法を提案する。
このシステムはMotionRewardを用いて、テキストにより基準付けされた共通の意味空間に異種の動作表現を統一し、複数次元の報酬学習を可能にする。さらに追加のアノテーションなしで自己洗練（self-refinement）による嗜好学習を行うことで、意味の改善を実現する。
拡散のノイズ除去ステップをまたぐ再帰的な勾配依存による計算上のボトルネックを抑えるため、MotionRFTはEasyTuneを導入する。これは、全トラジェクトリではなくステップごとの最適化を行い、密で細粒度かつメモリ効率の高い更新を可能にする。
実験により、効率と品質の強い改善が示されている。具体的には、MLDモデルでFID 0.132、ピークメモリ22.10GBを達成し、DRaFTに比べて最大15.22GBのメモリ節約を報告している。また、関節ベースのACMDMおよび回転ベースのHY Motionにおいて、FID/R-precisionの向上が報告されている。
著者らは、コード付きの公開プロジェクトページが利用可能であり、再現性と研究者による下流での採用を支援すると述べている。

Abstract

テキストからモーションを生成する取り組みは、拡散ベースおよびフローベースの生成モデルによって進展してきましたが、それでも教師ありの事前学習は、意味的な一貫性、現実感、人間の嗜好といった高レベルの目的にモデルを整合させるには不十分です。既存のポストトレーニング手法には重要な制約があります。すなわち、(1) 関節などの特定のモーション表現を対象としている、(2) テキストとモーションの整合といった特定の側面のみを最適化し、他の要因を損なう可能性がある、(3) 計算コストの大きさ、データ依存、粗い粒度での最適化といった問題を伴う、です。そこで本研究では、異種表現を扱うマルチ次元リワードモデル MotionReward と、効率的できめ細かいファインチューニング手法 EasyTune から成る強化学習によるファインチューニングの枠組みを提案します。統一された意味表現を得るために、MotionReward は異種モーションを、テキストによってアンカーされた共有意味空間へ写像し、多次元の報酬学習を可能にします。Self-refinement Preference Learning は、追加のアノテーションなしに意味をさらに強化します。効率的かつ効果的なファインチューニングのために、除ノイズステップ間にまたがる再帰的な勾配依存が主要なボトルネックであることを特定し、全軌跡ではなくステップごとに最適化する EasyTune を提案します。これにより、密で粒度の細かい、かつメモリ効率の高い更新を実現します。大規模な実験により、本枠組みの有効性が検証されました。MLD モデルでは、ピークメモリ 22.10 GB で FID 0.132 を達成し、DRaFT に比べて最大 15.22 GB を節約します。関節ベースの ACMDM では FID を 22.9% 削減し、回転ベースの HY Motion では 12.6% の R-Precision 向上と 23.3% の FID 改善を達成しました。コード付きのプロジェクトページは公開されています。