LA-Sign: 骨格ベース手話認識のための幾何学に配慮したアラインメントを備えるループ型トランスフォーマー
arXiv cs.CV / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- LA-Signは、より多くの層を積み重ねる代わりに、再帰(recurrence)によって潜在モーション表現を洗練させるループ型トランスフォーマー・フレームワークとして提案され、骨格ベースの単語(アイソレート)手話認識を対象とする。
- 本手法では、骨格特徴とテキスト特徴を適応的な双曲空間へ写像する、幾何学に配慮したコントラスト学習の目的関数を用いて、マルチスケールな意味の組織化を促す。
- 実験では複数のループ戦略と幾何学的マニフォールドを比較し、適応的なポアンカレ(Poincaré)アラインメントを備えたエンコーダ-デコーダのループ設計が最も良い結果を示すことが分かった。
- WLASLおよびMSASLのベンチマークにおいて、LA-Signは、より少ない固有(ユニーク)層数でありながら最先端の精度を達成し、構造化された幾何学による再帰的な洗練が効率を改善し得ることを示唆する。
- 論文は、再帰的な潜在表現の再訪(latent revisiting)と幾何学に配慮した表現学習を組み合わせることで、微細な指の動きと身体全体のダイナミクスの両方を捉えることを強調している。




