プロンプト・トゥ・ジェスチャー：指示動作の画像から動画生成能力を測定する

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ジェスチャー認識研究における重要なボトルネックであるデータ不足と、真正な人間の記録収集にかかる高コストに焦点を当てています。
指示動作（pointing/indicating）ジェスチャーについて、少数の人間の参照サンプルからプロンプトベースの画像から動画生成パイプラインでリアルなデータセットを作る方法を提案します。
合成ジェスチャーについて、実データとの視覚的な忠実度に加え、追加される変動性や新規性の観点から評価を行います。
実験結果では、合成データと実データを混ぜることで複数の下流タスク向けディープモデルの性能が向上し、合成データの実用性が示されています。
著者らは、画像から動画の生成技術が初期段階であっても、ゼロショットでのジェスチャー合成として強力に機能し、人手によるデータセットを補完し得ると結論づけています。

要旨: ジェスチャー認識の研究は、NLPとは異なり、深刻なデータ不足に直面し続けている。進歩は、コストのかかる人による記録を要すること、または画像処理アプローチではジェスチャーそのものの真正な多様性を生成できないことによって制約されている。近年、画像から動画への基盤モデルの進展により、自然言語によって導かれる写実的で意味的に豊かな動画の生成が可能になった。これらの能力は、労力を要しない合成データを作成する新たな可能性をもたらし、動画の生成AIモデルが、従来の人が生成したジェスチャーデータを補完し、強化できるのかという重要な問いを提起する。本論文では、プロンプトに基づく動画生成を導入・分析し、現実的な指示（デイクティック）ジェスチャーのデータセットを構築するとともに、その効果を下流タスクに対して厳密に評価する。我々は、人の参加者から収集した少数の参照サンプルに基づいて指示（デイクティック）ジェスチャーを生成するデータ生成パイプラインを提案する。これは、機械学習コミュニティの内外の双方で活用できる、アクセスしやすいアプローチを提供する。結果は、合成ジェスチャーが視覚的な忠実性という点で実際のものと非常に良く一致するだけでなく、意味のある多様性と新規性を導入して元データを豊かにすることを示している。さらに、混合データセットを用いた様々な深層モデルの優れた性能によって、このことは裏付けられる。これらの知見は、画像から動画への手法が（初期段階であっても）ジェスチャー合成に対して強力なゼロショットのアプローチを提供し、下流タスクに明確な利点をもたらすことを示している。