要旨: テキストから動作(motion)を生成することは、言語横断的な応用に大きな可能性をもつ一方で、バイリンガルなデータセットの欠如と、既存の言語モデルによる言語横断的な意味理解の不十分さによって妨げられている。これらのギャップに対処するため、我々は、LLM支援によるアノテーションと厳密な手動修正によって構築した最初のバイリンガルなテキストから動作のベンチマークであるBiHumanML3Dを導入する。さらに、シンプルでありながら効果的なベースラインとして、Cross-Lingual Alignment(CLA)を特徴とするBilingual Motion Diffusion(BiMD)を提案する。CLAは言語間で意味表現を明示的に整列させ、バイリンガル入力から高品質な動作生成を可能にする堅牢な条件付き空間を構築する。これには、ゼロショットのコードスイッチング(code-switching)シナリオも含まれる。大規模な実験の結果、CLAを用いたBiMDはBiHumanML3DにおいてFIDが0.045であるのに対し0.169、R@3が82.8\%であるのに対し80.8\%であり、単言語の拡散モデルおよび翻訳ベースラインを大幅に上回ることが示される。これは、我々のデータセットの重要性と信頼性、ならびに言語横断的な動作合成における整列戦略の有効性を裏付けるものである。データセットおよびコードは\href{https://wengwanjiang.github.io/BilingualT2M-page}{https://wengwanjiang.github.io/BilingualT2M-page}で公開する。
バイリンガル テキストからモーション生成:新しいベンチマークとベースライン
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、テキストからモーション生成における初のバイリンガルベンチマークとして「BiHumanML3D」を提案し、従来のバイリンガルデータセットの不足や言語横断的な意味理解に関するギャップを解消することを目的とする。
- このベンチマークは、LLM支援によるアノテーションと、その後の厳密な手動修正を組み合わせることで、データセットの信頼性を高めて作成されている。
- Bilingual Motion Diffusion(BiMD)にCross-Lingual Alignment(CLA)を導入することを提案し、言語間で意味表現を明示的に整合させることで、モーション合成のための堅牢な条件空間を構築する。
- BiHumanML3Dでの実験により、BiMD+CLAは単言語の拡散モデルや翻訳ベースのベースラインに比べて大幅に性能を向上することが示されている(例:FID 0.045 vs. 0.169、R@3 82.8% vs. 80.8%)。これにはゼロショットのコードスイッチングも含まれる。
- 著者らはデータセットとコードを公開すると報告しており、バイリンガルおよび言語横断型のテキストからモーション手法に関する追研究を可能にする。
広告


