音韻論に導かれた手話運動生成へ: 拡散モデルのベースラインと条件付分析

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、SMPL-X 表現を用いた MD Mスタイルの拡散モデルを用いて、3Dアバターの手話運動生成の強力なベースラインを確立し、グロス識別性指標で SignAvatar を上回る成果を示した。
  • テキスト条件付けの影響を、異なるエンコーダ(CLIP と T5)、条件付けモード(グロスのみ vs グロス+音韻属性)、および属性表記形式(記号表記 vs 自然言語)について体系的に検討した。
  • ASL-LEX の記号表記を自然言語へ翻訳することは、CLIPベースの属性条件付けを効果的に行うために必要であることを示した。一方、T5 はこの翻訳の影響をほとんど受けない。
  • 最も性能の高い変種(属性を対応づけた CLIP)は、すべての指標で SignAvatar を上回り、入力表現の重要性と、グロス属性と音韻属性の独立した経路の価値を浮き彫りにしている。

要旨: テキスト入力を条件として自然で正確、かつ視覚的に滑らかな3Dアバター手話モーションを生成することは、依然として非常に難しい課題です。本研究では、3Dボディモーションの生成モデルを訓練し、手の形、手の位置、動作といった ASL-LEX 2.0 の注釈を用いて、手話モーション生成における音韻属性条件付けの役割を探ります。まず、SMPL-X 表現を用いた Human Motion MDMスタイルの拡散モデルを用いて強力な拡散ベースラインを確立し、グロス識別性指標において最先端の CVAE 手法である SignAvatar を上回ります。次に、異なるテキストエンコーダ(CLIP対T5)、条件付けモード(グロスのみ vs. グロス+音韻属性)、および属性表記形式(記号表記 vs 自然言語)を用いて、テキスト条件付けの役割を体系的に研究します。私たちの分析は、象徴的な ASL-LEX 表記を自然言語へ翻訳することが、CLIP ベースの属性条件付けを効果的に行うための必要条件であることを示していますが、T5 はこの翻訳の影響を大きく受けません。さらに、私たちの最も性能の高いバリアント(属性をマッピングした CLIP)は、すべての指標で SignAvatar を上回ります。これらの知見は、テキストエンコーダベースの属性条件付けにおける入力表現を重要な要因として浮き彫りにし、グロスと音韻属性を独立した経路で符号化する構造化条件付けアプローチを動機づけます。返却形式: {"translated": "翻訳されたHTML"}