SignSparK: スパースなキーフレーム学習による効率的な多言語手話生成
arXiv cs.CV / 2026/3/12
📰 ニュースModels & Research
要点
- 本論文は、直接のテキストからポーズへのモデルと辞書検索法の間に存在する手話生成のトレードオフに取り組み、手話動作の基礎となる運動学的分布をより適切に捉えるためのスパースなキーフレームを提案する。
- 本研究は、正確な時間境界を自動的に抽出する超高効率の手話セグメンテーションモデル FAST を導入し、キーフレームを用いて SMPL-X および MANO 空間で3Dの手話シーケンスを合成する大規模な Conditional Flow Matching(CFM)フレームワーク SignSparK を提示します。
- 本アプローチは、キーフレームからポーズへの生成(KF2P)を可能にし、正確な時空間編集を実現するとともに、十回未満のサンプリングステップで高忠実度の合成を達成します。4つの手話言語に跨るスケーラビリティを実現します。
- 評価は、多様なSLPタスクや多言語ベンチマークにおいて最先端の性能を示し、フォトリアリスティックなレンダリングのための3Dガウシアン・スプラッティングを活用しています。
要約: 自然で言語的に正確な手話アバターの生成は依然として大きな課題です。現在の手話生成(SLP)フレームワークは、直接テキストからポーズへのモデルと辞書検索法の間で顕著なトレードオフに直面しており、前者は平均へ回帰する現象に苦しみ、後者はロボット的で断片的な遷移を生み出します。これを解決するために、私たちは人間の手話動作の真の運動学分布を捉えるためにスパースなキーフレームを活用する新しい訓練パラダイムを提案します。これらの離散的なアンカーから密な運動情報を予測することで、回帰への平均化を緩和しつつ滑らかな関節表現を確保します。大規模にこのパラダイムを実現するため、まず正確な時間境界を自動的に抽出する超効率的な手話セグメンテーションモデル FAST を導入します。次に、これらの抽出アンカーを利用して、SMPL-X および MANO 空間で3Dの手話シーケンスを合成する大規模な Conditional Flow Matching(CFM)フレームワーク SignSparK を提示します。このキーフレーム駆動型の定式化は、キーフレームからポーズへの生成(KF2P)を初めて解放し、手話シーケンスの正確な時空間編集を可能にします。さらに、我々が採用した再構成ベースのCFM目的関数は、十回未満のサンプリングステップで高忠実度の合成を可能にします。これにより SignSparK は4つの異なる手話言語にまたがって規模を拡張でき、これまでで最大の多言語SLPフレームワークを確立しました。最後に、フォトリアリスティックなレンダリングのために3Dガウシアン・スプラッティングを統合することで、広範な評価を通じて SignSparK が多様な SLP タスクと多言語ベンチマークで新たな最先端を確立したことを示します。



