テキストからモーション生成のための次スケール自己回帰モデル

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的な次トークン予測よりもモーションの時間的構造により適合する、テキストからモーション生成のための次スケール自己回帰フレームワークであるMoScaleを提案する。
MoScaleは、粗い時間解像度から細かい時間解像度へと階層的にモーションを生成し、最初にグローバルな意味を与え、その後段階的にそれを洗練させることで、長距離の構造を捉える。
対応するテキスト・モーションのデータが限られていることに対処するため、手法ではクロススケールの階層的洗練（各スケールにおける初期予測を改善）と、インスケールの時間的洗練（あるスケール内で双方向に選択的に再予測する）を追加する。
著者らは、高い学習効率、モデル規模に応じたスケーリング、さまざまな生成・編集タスクに対する強力なゼロショット汎化により、最先端のテキストからモーションの結果を報告している。

要旨: 自己回帰（AR）モデルは安定的で効率的な学習を提供しますが、標準的な次トークン予測は、テキスト条件付きのモーション生成に必要な時間的構造と十分に整合していません。そこで本研究では、粗い時間分解能から細かい時間分解能へと、運動を階層的に生成する次スケールARフレームワークであるMoScaleを提案します。最も粗いスケールでグローバルな意味論を与え、それを段階的に洗練することで、MoScaleは長距離のモーション構造により適した因果的な階層を確立します。限られたテキスト・モーションデータ下での頑健性を向上させるために、さらに、スケール間の階層的洗練を組み込み、各スケールでの初期予測を改善し、またスケール内の時間的洗練を用いて、選択的な双方向の再予測を行います。MoScaleは、高い学習効率を保ちながらSOTAのテキストからモーションへの性能を達成し、モデルサイズに対して効果的にスケールし、多様なモーション生成および編集タスクへゼロショットで汎化します。

Black Hat Asia

AI Business

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較

Dev.to

倫理的監査可能性を組み込んだ、人間整合型デシジョントランスフォーマーによる衛星異常対応オペレーション

Dev.to

あの“決定的”な動画？証拠ではない。容疑者だ。

Dev.to

AIの引用レジストリとWebサイトベースの出版制約

Dev.to

テキストからモーション生成のための次スケール自己回帰モデル

要点

関連記事

Black Hat Asia

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較

倫理的監査可能性を組み込んだ、人間整合型デシジョントランスフォーマーによる衛星異常対応オペレーション

あの“決定的”な動画？証拠ではない。容疑者だ。

AIの引用レジストリとWebサイトベースの出版制約

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

完全自動化されたWebサイト 2026-04-11：**スコアボード — ホームページ上での視覚的ジャッジ得点比較**

倫理的監査可能性を組み込んだ、人間整合型デシジョントランスフォーマーによる衛星異常対応オペレーション

あの“決定的”な動画？証拠ではない。容疑者だ。

AIの引用レジストリとWebサイトベースの出版制約

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較