テキストからモーション生成のための次スケール自己回帰モデル

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的な次トークン予測よりもモーションの時間的構造により適合する、テキストからモーション生成のための次スケール自己回帰フレームワークであるMoScaleを提案する。
  • MoScaleは、粗い時間解像度から細かい時間解像度へと階層的にモーションを生成し、最初にグローバルな意味を与え、その後段階的にそれを洗練させることで、長距離の構造を捉える。
  • 対応するテキスト・モーションのデータが限られていることに対処するため、手法ではクロススケールの階層的洗練(各スケールにおける初期予測を改善)と、インスケールの時間的洗練(あるスケール内で双方向に選択的に再予測する)を追加する。
  • 著者らは、高い学習効率、モデル規模に応じたスケーリング、さまざまな生成・編集タスクに対する強力なゼロショット汎化により、最先端のテキストからモーションの結果を報告している。

要旨: 自己回帰(AR)モデルは安定的で効率的な学習を提供しますが、標準的な次トークン予測は、テキスト条件付きのモーション生成に必要な時間的構造と十分に整合していません。そこで本研究では、粗い時間分解能から細かい時間分解能へと、運動を階層的に生成する次スケールARフレームワークであるMoScaleを提案します。最も粗いスケールでグローバルな意味論を与え、それを段階的に洗練することで、MoScaleは長距離のモーション構造により適した因果的な階層を確立します。限られたテキスト・モーションデータ下での頑健性を向上させるために、さらに、スケール間の階層的洗練を組み込み、各スケールでの初期予測を改善し、またスケール内の時間的洗練を用いて、選択的な双方向の再予測を行います。MoScaleは、高い学習効率を保ちながらSOTAのテキストからモーションへの性能を達成し、モデルサイズに対して効果的にスケールし、多様なモーション生成および編集タスクへゼロショットで汎化します。

テキストからモーション生成のための次スケール自己回帰モデル | AI Navigate