要旨:
連続手話認識(CSLR)は、聴覚障害者コミュニティの言語を理解するうえで重要な課題です。
現代のキーポイントベースの手法は、通常、時空間エンコーディングに依存します。キーポイント間の空間的相互作用はグラフ畳み込みネットワークやアテンション機構を用いてモデル化され、時間的ダイナミクスは1次元畳み込みネットワークを用いて捉えられます。
しかし、そのような設計はエンコーダとデコーダの両方に多くのパラメータを導入することが多いです。
本論文は、空間的な(キーポイント間)および時間的な(局所ウィンドウ内)の両方でアテンションスコアを計算し、特徴を集約して局所的文脈を考慮した時空間表現を生成する、統一的な時空間アテンションネットワークを提案します。
提案されたエンコーダは、既存の最先端モデルよりおおよそ 70-80 ext% のパラメータを削減しつつ、Phoenix-14Tデータセットにおいてキーポイントベースの手法と同等の性能を達成します。
STARK: 連続手話認識のキーポイント表現のための時空間アテンション
arXiv cs.CL / 2026/3/18
💬 オピニオンModels & Research
要点
- 本論文は、連続手話認識のための統一された時空間アテンションネットワークを提案します。これは、キーポイント間(空間的)および局所的な時間窓内(時間的)の両方に注意を払い、文脈を考慮した表現を構築します。
- 本手法は、従来の最先端モデルと比較してエンコーダ/デコーダのパラメータをおおよそ70〜80%削減しつつ、Phoenix-14Tデータセットにおいて同等の精度を実現します。
- 本手法は、空間的キーポイント間の相互作用と局所的な時間的ダイナミクスを1つのアーキテクチャに統合し、性能を損なうことなくモデルサイズを削減することを目的としています。
- Phoenix-14Tでの評価は競争力のある性能を示しており、CSLRシステムの効率性と展開の観点から実用的な利点がある可能性を示唆しています。
