STARK: 連続手話認識のキーポイント表現のための時空間アテンション

arXiv cs.CL / 2026/3/18

💬 オピニオンModels & Research

共有:

要点

本論文は、連続手話認識のための統一された時空間アテンションネットワークを提案します。これは、キーポイント間（空間的）および局所的な時間窓内（時間的）の両方に注意を払い、文脈を考慮した表現を構築します。
本手法は、従来の最先端モデルと比較してエンコーダ/デコーダのパラメータをおおよそ70〜80％削減しつつ、Phoenix-14Tデータセットにおいて同等の精度を実現します。
本手法は、空間的キーポイント間の相互作用と局所的な時間的ダイナミクスを1つのアーキテクチャに統合し、性能を損なうことなくモデルサイズを削減することを目的としています。
Phoenix-14Tでの評価は競争力のある性能を示しており、CSLRシステムの効率性と展開の観点から実用的な利点がある可能性を示唆しています。

要旨：
連続手話認識（CSLR）は、聴覚障害者コミュニティの言語を理解するうえで重要な課題です。
現代のキーポイントベースの手法は、通常、時空間エンコーディングに依存します。キーポイント間の空間的相互作用はグラフ畳み込みネットワークやアテンション機構を用いてモデル化され、時間的ダイナミクスは1次元畳み込みネットワークを用いて捉えられます。
しかし、そのような設計はエンコーダとデコーダの両方に多くのパラメータを導入することが多いです。
本論文は、空間的な（キーポイント間）および時間的な（局所ウィンドウ内）の両方でアテンションスコアを計算し、特徴を集約して局所的文脈を考慮した時空間表現を生成する、統一的な時空間アテンションネットワークを提案します。
提案されたエンコーダは、既存の最先端モデルよりおおよそ $70-80 ext%$ のパラメータを削減しつつ、Phoenix-14Tデータセットにおいてキーポイントベースの手法と同等の性能を達成します。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

SNNはGPUを殺せるか？ 3本の論文が見せた現実

Qiita

医療音声でSTT 31モデルをベンチマーク—VibeVoice 9Bが新しいオープンソース首位（WER 8.34%）に、ただし大きくて遅い

Reddit r/LocalLLaMA

STARK: 連続手話認識のキーポイント表現のための時空間アテンション

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

SNNはGPUを殺せるか？ 3本の論文が見せた現実

医療音声でSTT 31モデルをベンチマーク—VibeVoice 9Bが新しいオープンソース首位（WER 8.34%）に、ただし大きくて遅い

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer