3D手のポーズ推定のためのジェスチャー認識を取り入れた事前学習とトークン融合

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

共有:

要点

本論文は、単眼RGB画像からの3D手のポーズ推定のために、ジェスチャーを意識した事前学習フレームワークを提案し、ジェスチャーラベルを活用して有用な帰納的バイアスを提供する。
粗いジェスチャーラベルと細かなジェスチャーラベルから有用な埋め込み空間を学習するジェスチャー意識を取り入れた事前学習と、各関節ごとのトークン Transformer を組み合わせ、ジェスチャー埋め込みを用いて MANO 手パラメータを回帰する二段階のパイプラインを提示する。
学習目的は階層的で、パラメータ、関節、および構造制約を監督して学習を導く。
InterHand2.6M における実験は、ジェスチャー意識を取り入れた事前学習が単一手の精度を従来のEANetベースラインより改善し、修正なしで他のアーキテクチャにも一般化できることを示している。

要約: 単眼RGB画像からの3D手の姿勢推定は、AR/VR、ヒューマン-コンピュータ・インタラクション、および手話理解の応用にとって基本的な課題である。本研究では、離散的なジェスチャーラベルの集合が利用可能な状況に焦点を当て、ジェスチャーの意味論が3D姿勢推定に有力な帰納的バイアスとして機能し得ることを示す。我々は2段階のフレームワークを提示する。まず、InterHand2.6M からの粗いジェスチャーラベルと細かなジェスチャーラベルを用いて有用な埋め込み空間を学習するジェスチャー認識を取り入れた事前学習を行い、その後、関節ごとのトークンを用いたTransformerをジェスチャー埋め込みによって導かれる中間表現として用い、MANO手パラメータの最終回帰を行う。訓練は、パラメータ、関節、および構造的拘束に対する階層的な目的関数によって駆動される。InterHand2.6M を用いた実験は、ジェスチャー認識を取り入れた事前学習が最先端のEANetベースラインより一貫して片手の精度を向上させ、かつその利得は修正を加えることなく他のアーキテクチャへ転移することを示している。

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

3D手のポーズ推定のためのジェスチャー認識を取り入れた事前学習とトークン融合

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？