テキスト駆動のモーション生成におけるモーションと言語のアラインメントの探究
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキスト駆動の人間のモーション生成において、モーション動力学とテキストの意味論を整合させるという課題に取り組み、それを「モーションと言語のアラインメント問題」として再定式化する。
- それに基づき、MLA-Genを提案し、グローバルなモーションの事前知識と、きめ細かなローカルな条件付けを組み合わせることで、一般的なモーションパターンの把握をより良く行い、詳細なテキスト—モーションのアラインメントを改善する。
- 著者らは、「attention sink」問題を特定しており、注意(attention)が最初のテキストトークンに過度に集中してしまうことで、有益な手がかりの活用が弱まり、意味の根拠付け(semantic grounding)が低下する。
- attention集中を測定するためのSinkRatioを導入し、生成中の注意を制御・調整するアラインメントを意識したマスキングおよび制御戦略を開発する。
- 複数のベースラインに関する実験では、モーションの品質とモーション—言語のアラインメントの両方で一貫した改善が示されており、受理後にコードを公開する予定である。




