状態空間モデルは手話の効果的な学習者である:音韻の合成性を活用した語彙規模の認識
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 手話認識モデルは、標識(サイン)を言語の音韻的な合成構造を活用するのではなく、原子的な視覚パターンとして扱うため、現実的な語彙規模へスケールできないことが多い。
- 本論文では、解剖学的に根ざしたグラフ注意機構による音韻分解の強制、直交する部分空間への明示的な因子分解、プロトタイプに基づく分類による少数ショット転移を行う PHONSSM を提案する。
- 骨格データのみで学習した PHONSSM は、WLASL2000 で 72.1% を達成し、骨格ベースの最先端手法を +18.4 パーセントポイント上回る。また、動画を使わずに多くの RGB アプローチを上回る。
- この手法は、少数ショット設定で特に大きな改善(相対 +225%)を示し、教師あり RGB のベースラインを上回る ASL Citizen へのゼロショット転移も実証する。
- 著者らは、語彙スケーリングのボトルネックは主として表現学習の問題であり、言語構造に整合した合成的帰納バイアスによって対処できると結論づけている。




