テキスト駆動のモーション生成におけるモーションと言語のアラインメントの探究

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキスト駆動の人間のモーション生成において、モーション動力学とテキストの意味論を整合させるという課題に取り組み、それを「モーションと言語のアラインメント問題」として再定式化する。
それに基づき、MLA-Genを提案し、グローバルなモーションの事前知識と、きめ細かなローカルな条件付けを組み合わせることで、一般的なモーションパターンの把握をより良く行い、詳細なテキスト—モーションのアラインメントを改善する。
著者らは、「attention sink」問題を特定しており、注意（attention）が最初のテキストトークンに過度に集中してしまうことで、有益な手がかりの活用が弱まり、意味の根拠付け（semantic grounding）が低下する。
attention集中を測定するためのSinkRatioを導入し、生成中の注意を制御・調整するアラインメントを意識したマスキングおよび制御戦略を開発する。
複数のベースラインに関する実験では、モーションの品質とモーション—言語のアラインメントの両方で一貫した改善が示されており、受理後にコードを公開する予定である。

Abstract

テキスト駆動の人体動作生成は、テキスト記述に従う現実的な動作シーケンスを合成することを目的としています。近年の進展にもかかわらず、動作ダイナミクスをテキストのセマンティクスに正確に整合させることは、依然として根本的な課題です。本論文では、動作言語アラインメントの観点からテキストから動作への生成を再検討し、グローバルな動作事前知識（priors）ときめ細かなローカル条件付けを統合するフレームワークであるMLA-Genを提案します。この設計により、モデルは共通の動作パターンを捉えられると同時に、テキストと動作の間の詳細なアラインメントを確立できます。さらに我々は、人間の動作生成においてこれまで見落とされていた注意のシンク現象（attention sink phenomenon）を特定します。これは、注意が開始テキストトークンに過度に集中してしまい、有益なテキスト手がかりの活用が制限され、セマンティクスに対するグラウンディングが低下するというものです。この問題を分析するために、注意集中度を測定する指標であるSinkRatioを導入し、生成中の注意を制御するためのアラインメントに配慮したマスキングおよび制御戦略を開発します。広範な実験の結果、提案手法は強力なベースラインと比較して、常に動作品質と動作言語アラインメントの両方を向上させることが示されました。コードは採択後に公開します。