LA-Sign: 骨格ベース手話認識のための幾何学に配慮したアラインメントを備えるループ型トランスフォーマー

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LA-Signは、より多くの層を積み重ねる代わりに、再帰（recurrence）によって潜在モーション表現を洗練させるループ型トランスフォーマー・フレームワークとして提案され、骨格ベースの単語（アイソレート）手話認識を対象とする。
本手法では、骨格特徴とテキスト特徴を適応的な双曲空間へ写像する、幾何学に配慮したコントラスト学習の目的関数を用いて、マルチスケールな意味の組織化を促す。
実験では複数のループ戦略と幾何学的マニフォールドを比較し、適応的なポアンカレ（Poincaré）アラインメントを備えたエンコーダ-デコーダのループ設計が最も良い結果を示すことが分かった。
WLASLおよびMSASLのベンチマークにおいて、LA-Signは、より少ない固有（ユニーク）層数でありながら最先端の精度を達成し、構造化された幾何学による再帰的な洗練が効率を改善し得ることを示唆する。
論文は、再帰的な潜在表現の再訪（latent revisiting）と幾何学に配慮した表現学習を組み合わせることで、微細な指の動きと身体全体のダイナミクスの両方を捉えることを強調している。

Abstract

骨格に基づく分離手話認識（ISLR）は、微細な指の動きから全身のダイナミクスに至るまで、複数の空間スケールにまたがる関節運動をきめ細かく理解することを要求します。既存の手法は通常、深いフィードフォワード型アーキテクチャに依存しており、モデルの容量は増やせるものの、再帰的な洗練と構造化された表現のための仕組みが欠けています。そこで本研究では、ISLRのためのジオメトリを意識したアラインメントを備えたループ型トランスフォーマーフレームワークであるLA-Signを提案します。より深い層を積み重ねる代わりに、LA-Signは再帰によって深さを得て、共有パラメータのもとで潜在表現を繰り返し再訪しながら、運動理解を段階的に洗練します。さらに、この洗練プロセスを正則化するために、骨格特徴とテキスト特徴を適応的な双曲空間へ射影するジオメトリを意識したコントラスト目的関数を提示し、多スケールな意味の階層的な組織化を促します。3種類のループ設計と複数の幾何学的多様体を検討し、エンコーダ—デコーダのルーピングと適応的ポアンカレ整合を組み合わせた場合が最も高い性能を示すことを明らかにします。WLASLおよびMSASLベンチマークに対する大規模な実験の結果、LA-Signは、より少ない固有層でありながら最先端の結果を達成し、手話認識における反復的な潜在洗練と、ジオメトリを意識した表現学習の有効性を示しています。