MotionRFT:テキストからの動作生成に向けた統一強化ファインチューニング
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MotionRFTは、意味的一貫性、現実性、人間の嗜好との整合といった目的に対する教師あり事前学習の不足を解消する、テキストから動作生成のための強化ファインチューニング手法を提案する。
- このシステムはMotionRewardを用いて、テキストにより基準付けされた共通の意味空間に異種の動作表現を統一し、複数次元の報酬学習を可能にする。さらに追加のアノテーションなしで自己洗練(self-refinement)による嗜好学習を行うことで、意味の改善を実現する。
- 拡散のノイズ除去ステップをまたぐ再帰的な勾配依存による計算上のボトルネックを抑えるため、MotionRFTはEasyTuneを導入する。これは、全トラジェクトリではなくステップごとの最適化を行い、密で細粒度かつメモリ効率の高い更新を可能にする。
- 実験により、効率と品質の強い改善が示されている。具体的には、MLDモデルでFID 0.132、ピークメモリ22.10GBを達成し、DRaFTに比べて最大15.22GBのメモリ節約を報告している。また、関節ベースのACMDMおよび回転ベースのHY Motionにおいて、FID/R-precisionの向上が報告されている。
- 著者らは、コード付きの公開プロジェクトページが利用可能であり、再現性と研究者による下流での採用を支援すると述べている。



