状態空間モデルは手話の効果的な学習者である:音韻の合成性を活用した語彙規模の認識

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 手話認識モデルは、標識(サイン)を言語の音韻的な合成構造を活用するのではなく、原子的な視覚パターンとして扱うため、現実的な語彙規模へスケールできないことが多い。
  • 本論文では、解剖学的に根ざしたグラフ注意機構による音韻分解の強制、直交する部分空間への明示的な因子分解、プロトタイプに基づく分類による少数ショット転移を行う PHONSSM を提案する。
  • 骨格データのみで学習した PHONSSM は、WLASL2000 で 72.1% を達成し、骨格ベースの最先端手法を +18.4 パーセントポイント上回る。また、動画を使わずに多くの RGB アプローチを上回る。
  • この手法は、少数ショット設定で特に大きな改善(相対 +225%)を示し、教師あり RGB のベースラインを上回る ASL Citizen へのゼロショット転移も実証する。
  • 著者らは、語彙スケーリングのボトルネックは主として表現学習の問題であり、言語構造に整合した合成的帰納バイアスによって対処できると結論づけている。

Abstract

手話認識は、壊滅的なスケーリング失敗に悩まされています。小さな語彙で高い精度を達成したモデルは、現実的な規模では崩壊します。既存のアーキテクチャは手話を、原子的な視覚パターンとして扱い、手話言語の合成的な構造を活用できない平坦な表現を学習してしまいます。手話言語は、語彙全体で再利用される離散的な音韻パラメータ(手の形、位置、動き、向き)から、体系的に組織化されています。私たちはPHONSSMを導入します。解剖学的に根ざしたグラフ注意(graph attention)によって音韻分解を強制し、直交するサブスペースへの明示的な因子分解を行い、プロトタイプ分類によって少数ショット転移を可能にします。史上最大規模で組み立てられた最大のASLデータセット(5,565語)において、骨格データのみを用いてPHONSSMはWLASL2000で72.1%を達成します(骨格SOTAに対して+18.4pp)。これは、動画入力なしでほとんどのRGB手法を上回ります。改善は少数ショットの設定で最も顕著で、相対で+225%です。またモデルはASL Citizenへゼロショット転移し、教師ありRGBのベースラインを上回ります。語彙スケーリングのボトルネックは本質的に表現学習の問題であり、言語構造を模倣する合成的な帰納バイアスによって解決可能です。