拡散からフローへ：MotionGPT3における効率的なモーション生成

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MotionGPT3は、連続潜在空間を用いたテキスト条件付きモーション生成モデルとして研究されており、拡散ベースの事前分布（prior）または整流フロー（rectified flow）の目的関数のいずれかを用いる。
本論文は、アーキテクチャ、学習プロトコル、評価を固定した制御された比較を行い、生成目的が学習ダイナミクス、最終性能、推論効率にどのように影響するかを切り分ける。
HumanML3Dデータセットでの実験では、整流フローが拡散よりも少ないエポックで収束し、より早い段階で強力なテスト性能を達成する。
整流フローは、同一条件下で拡散ベースのモーション品質と同等、またはそれを上回り、さらに多くの推論ステップ数にわたってより安定している。
これらの結果は、整流フローの画像／音声生成における利点が、連続潜在空間のテキストからモーションへの生成にも転移し、サンプリング手順（サンプリングステップ）を減らすことで、効率と品質のトレードオフを改善できることを示している。

要旨: 最近のテキスト駆動型のモーション生成手法は、離散トークンに基づくアプローチと、連続潜在表現に基づく定式化の両方にまたがっています。MotionGPT3は後者のパラダイムを体現しており、学習された連続的なモーション潜在空間と、テキスト条件付き合成のための拡散ベースの事前分布（prior）を組み合わせています。近年、画像および音声生成において、整流フロー（rectified flow）の目的関数が、拡散に比べて良好な収束性と推論時の性質を示すことが明らかになってきましたが、それらの利点がモーション生成の設定にもそのままきれいに引き継がれるかどうかは不明です。本研究では、MotionGPT3の枠組みの中で、拡散と整流フローの目的関数を比較するための、制御された実証的研究を行います。モデルのアーキテクチャ、学習プロトコル、評価セットアップを固定することで、生成目的が学習ダイナミクス、最終性能、推論効率に与える影響を切り分けます。HumanML3Dデータセットでの実験の結果、整流フローはより少ない学習エポックで収束し、より早い段階で強いテスト性能に到達し、同一条件下で拡散ベースのモーション品質に一致するかそれを上回ることが示されました。さらに、フローに基づく事前分布は推論ステップ数の幅広い範囲にわたって安定した挙動を示し、少ないサンプリングステップで競争力のある品質を達成することで、効率—品質のトレードオフが改善されます。総合すると、本結果は、整流フローの目的関数に関して知られているいくつかの利点が、連続潜在表現に基づくテキストからモーションへの生成にも拡張されることを示唆しており、モーション・プリオル（prior）における学習目的の選択が重要であることを強調しています。