M3T：手話生成のための離散マルチモーダルモーショントークン

arXiv cs.CV / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、手話の生成では非手指特徴（例：口の動き、眉の上げ下げ、視線、頭部の動き）を生成する必要があると主張している。これらは文法的に必須であり、手の動きだけからは復元できないためである。
FLAMEの顔の表情豊かさとSMPL-Xの身体を組み合わせるためにSMPL-FXを導入し、身体・手・顔の表現を離散化するために、モダリティ固有の有限スカラー量子化（Finite Scalar Quantization）VAEを用いる。
M3Tは、得られたマルチモーダルなモーショントークンの語彙上で学習された自己回帰型トランスフォーマーであり、意味的に根拠づけられた埋め込みを促す補助的な翻訳目的を備えている。
How2Sign、CSL-Daily、Phoenix14Tでの実験により、手話生成の品質として最先端の性能を示し、NMFs-CSLでは、最も強力な比較可能なポーズ基線に対して58.3%の精度（基線は49.0%）を達成する。

要旨: 手話の生成には、手の動きの生成だけでは不十分です。口形（mouthings）、眉の上げ下げ、視線、頭部の動きなどの非手指的特徴は、文法上必須であり、手指の動作のみからは回復できません。既存の3D生成システムがそれらを統合する際には2つの障壁があります。1つは、標準的なボディモデルが、これらの調音（articulations）を符号化するには低次元すぎる顔（facial）の空間を提供していること、そして、より豊かな表現を採用した場合には、標準的な離散トークン化がコードブック崩壊を起こし、表現空間の大部分に到達できなくなることです。そこで本研究では、FLAMEの豊かな表現空間とSMPL-Xのボディを結合したSMPL-FXを提案します。さらに、この結果得られた表現を、ボディ、手、顔それぞれに対するモダリティ固有の有限スカラー量子化（Finite Scalar Quantization）VAEでトークン化します。M3Tは、このマルチモーダルなモーション用語彙（motion vocabulary）上で学習された自己回帰型トランスフォーマーであり、意味的に根拠づけられた埋め込みを促す補助的な翻訳目的関数を備えています。3つの標準的ベンチマーク（How2Sign、CSL-Daily、Phoenix14T）において、M3Tは手話生成の品質における最先端性能を達成し、非手指的特徴のみで手話が区別できるNMFs-CSLでは、最も強力な比較可能なポーズ基準（pose baseline）に対する49.0%に対して58.3%の精度を実現します。

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Dev.to

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

M3T：手話生成のための離散マルチモーダルモーショントークン

要点

関連記事

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer