AI Navigate

3D手のポーズ推定のためのジェスチャー認識を取り入れた事前学習とトークン融合

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • 本論文は、単眼RGB画像からの3D手のポーズ推定のために、ジェスチャーを意識した事前学習フレームワークを提案し、ジェスチャーラベルを活用して有用な帰納的バイアスを提供する。
  • 粗いジェスチャーラベルと細かなジェスチャーラベルから有用な埋め込み空間を学習するジェスチャー意識を取り入れた事前学習と、各関節ごとのトークン Transformer を組み合わせ、ジェスチャー埋め込みを用いて MANO 手パラメータを回帰する二段階のパイプラインを提示する。
  • 学習目的は階層的で、パラメータ、関節、および構造制約を監督して学習を導く。
  • InterHand2.6M における実験は、ジェスチャー意識を取り入れた事前学習が単一手の精度を従来のEANetベースラインより改善し、修正なしで他のアーキテクチャにも一般化できることを示している。

要約: 単眼RGB画像からの3D手の姿勢推定は、AR/VR、ヒューマン-コンピュータ・インタラクション、および手話理解の応用にとって基本的な課題である。本研究では、離散的なジェスチャーラベルの集合が利用可能な状況に焦点を当て、ジェスチャーの意味論が3D姿勢推定に有力な帰納的バイアスとして機能し得ることを示す。我々は2段階のフレームワークを提示する。まず、InterHand2.6M からの粗いジェスチャーラベルと細かなジェスチャーラベルを用いて有用な埋め込み空間を学習するジェスチャー認識を取り入れた事前学習を行い、その後、関節ごとのトークンを用いたTransformerをジェスチャー埋め込みによって導かれる中間表現として用い、MANO手パラメータの最終回帰を行う。訓練は、パラメータ、関節、および構造的拘束に対する階層的な目的関数によって駆動される。InterHand2.6M を用いた実験は、ジェスチャー認識を取り入れた事前学習が最先端のEANetベースラインより一貫して片手の精度を向上させ、かつその利得は修正を加えることなく他のアーキテクチャへ転移することを示している。