M3T:手話生成のための離散マルチモーダルモーショントークン

arXiv cs.CV / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、手話の生成では非手指特徴(例:口の動き、眉の上げ下げ、視線、頭部の動き)を生成する必要があると主張している。これらは文法的に必須であり、手の動きだけからは復元できないためである。
  • FLAMEの顔の表情豊かさとSMPL-Xの身体を組み合わせるためにSMPL-FXを導入し、身体・手・顔の表現を離散化するために、モダリティ固有の有限スカラー量子化(Finite Scalar Quantization)VAEを用いる。
  • M3Tは、得られたマルチモーダルなモーショントークンの語彙上で学習された自己回帰型トランスフォーマーであり、意味的に根拠づけられた埋め込みを促す補助的な翻訳目的を備えている。
  • How2Sign、CSL-Daily、Phoenix14Tでの実験により、手話生成の品質として最先端の性能を示し、NMFs-CSLでは、最も強力な比較可能なポーズ基線に対して58.3%の精度(基線は49.0%)を達成する。

要旨: 手話の生成には、手の動きの生成だけでは不十分です。口形(mouthings)、眉の上げ下げ、視線、頭部の動きなどの非手指的特徴は、文法上必須であり、手指の動作のみからは回復できません。既存の3D生成システムがそれらを統合する際には2つの障壁があります。1つは、標準的なボディモデルが、これらの調音(articulations)を符号化するには低次元すぎる顔(facial)の空間を提供していること、そして、より豊かな表現を採用した場合には、標準的な離散トークン化がコードブック崩壊を起こし、表現空間の大部分に到達できなくなることです。そこで本研究では、FLAMEの豊かな表現空間とSMPL-Xのボディを結合したSMPL-FXを提案します。さらに、この結果得られた表現を、ボディ、手、顔それぞれに対するモダリティ固有の有限スカラー量子化(Finite Scalar Quantization)VAEでトークン化します。M3Tは、このマルチモーダルなモーション用語彙(motion vocabulary)上で学習された自己回帰型トランスフォーマーであり、意味的に根拠づけられた埋め込みを促す補助的な翻訳目的関数を備えています。3つの標準的ベンチマーク(How2Sign、CSL-Daily、Phoenix14T)において、M3Tは手話生成の品質における最先端性能を達成し、非手指的特徴のみで手話が区別できるNMFs-CSLでは、最も強力な比較可能なポーズ基準(pose baseline)に対する49.0%に対して58.3%の精度を実現します。