AI Navigate

OpenT2M: オープンソース・大規模・高品質データによる無駄のないモーション生成

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • OpenT2Mは、テキストからモーションへ(T2M)モデルの一般化を高めるため、総計2800時間超の人間モーションを含む、100万規模の高品質オープンソースモーションデータセットを導入します。
  • データセットは、物理的実現可能性の検証と多粒度フィルタリングを含む厳格な品質管理を経ており、秒単位のテキスト注釈を備えています。
  • 新しい事前学習済みモーションモデル MonoFrill は、体を生体部位に分割して時空間依存性を捉える新規の 2D-PRQ モーション・トークナイザーを用い、優れた再構成性能とゼロショット性能を達成します。
  • 著者らは長期的なモーション生成の自動化パイプラインを提供しており、OpenT2MとMonoFrillがT2Mのベンチマークとデータ品質基準を前進させると期待しています。

概要: Text-to-motion (T2M) の生成は、テキスト記述から現実的な人間の動作を作り出すことを目的とし、アニメーションとロボティクスにおける有望な応用を持ちます。近年の進歩にもかかわらず、既存のモーションデータセットは規模が小さく多様性が限られているため、未見のテキスト記述に対して現在のT2Mモデルは性能が低いです。この問題に対処するため、百万規模の高品質でオープンソースのモーションデータセットOpenT2Mを紹介します。これには2800時間を超える人間の動作データが含まれます。各シークエンスは、物理的実現可能性の検証と多段階のフィルタリングを通じて厳格な品質管理が行われ、秒単位の詳細なテキスト注釈が付与されます。長期的なシーケンスを作成する自動化パイプラインも開発しており、複雑なモーション生成を可能にします。OpenT2Mを発展させる形で、MonoFrillを導入します。これは複雑な設計や技術的トリックを「フリル」として用いずに、魅力的なT2M結果を達成する事前学習済みモーションモデルです。その中核は2D-PRQで、人体を生物学的パーツに分割して時空間の依存関係を捉える新規のモーショントークナイザーです。実験の結果、OpenT2Mは既存のT2Mモデルの一般化能力を大幅に向上させ、一方で2D-PRQは優れた再構成能力と強力なゼロショット性能を実現します。我々はOpenT2MとMonoFrillが、長年のデータ品質とベンチマークの課題に取り組むことにより、T2M分野の発展を促進すると期待しています。