要旨: テキスト駆動の人間の動作生成における最近の進歩により、自然言語の記述から現実的なモーション系列を合成できるようになってきました。 しかし、既存のほとんどの手法はアイデンティティに中立な動作を前提とし、標準的な身体表現を用いて動きを生成するため、動作ダイナミクスに対する身体形態の強い影響を無視しています。 実際には、体格(プロポーション)、質量分布、年齢といった属性が、行為がどのように実行されるかに大きく影響しており、この結びつきを軽視すると、しばしば物理的に整合しないモーションが生じます。 私たちは、身体形態とモーションのダイナミクスの関係を明示的にモデル化する、アイデンティティ認識型のモーション生成フレームワークを提案します。 明示的な幾何学的計測に頼る代わりに、アイデンティティは、自然言語の記述や視覚的手がかりを含むマルチモーダルな信号によって表現します。 さらに、モーション系列と身体形状パラメータを同時に合成するジョイントなモーション・シェイプ生成パラダイムを導入し、アイデンティティの手がかりがモーションのダイナミクスを直接的に調整できるようにします。 モーションキャプチャデータセットおよび大規模な野外動画に対する大規模な実験により、高いモーション品質を維持しつつ、モーションの現実感とモーション・アイデンティティの一貫性が向上することを示します。 プロジェクトページ: https://vjwq.github.io/IAM
IAM:アイデンティティ対応の人間の動きと形状の共同生成
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のテキスト駆動の人間動作生成がアイデンティティを考慮しない(正準化された)身体表現に依存しがちなため、身体の形態が運動ダイナミクスへ与える影響を無視し、物理的に不整合な動きにつながり得ると指摘しています。
- 形状と動作の結びつきをモデル化するアイデンティティ対応の生成フレームワークを提案し、幾何学的な計測値に頼らず、自然言語記述や視覚的手がかりといったマルチモーダル信号でアイデンティティを表現します。
- 動作シーケンスと身体の形状パラメータを同時に合成する「動作―形状の共同生成」パラダイムを導入し、アイデンティティ情報が運動ダイナミクスに直接反映されるようにします。
- モーションキャプチャデータセットおよび大規模なin-the-wild動画での実験により、生成動作の現実らしさと、アイデンティティに対する一貫性が向上しつつ、高い動作品質も維持できることを示しています。
- arXiv:2604.25164v1に紐づく研究の早期アナウンスであり、詳細はプロジェクトページで公開されています。


