要旨: AIによる手話(サインランゲージ)の解釈は、高品質で注釈(アノテーション)が付いたデータの不足によって制限されています。ASL STEM WikiおよびFLEURS-ASLを含む新しいデータセットには、プロのインタープリタ(通訳者)と数百時間規模のデータが含まれますが、十分に注釈が付けられていないため、部分的にしか活用されていません。これは、この規模で注釈付けを行うための費用が過大であることが一因です。本研究では、入力として手話の動画と英語を受け取り、グロス(要約表現)、指文字化された単語(ファンガースペリング)、および手話分類器に対する、もっともらしい注釈のランキング付き集合(時間区間を含む)を出力する疑似注釈(pseudo-annotation)パイプラインを開発します。私たちのパイプラインは、指文字認識器および分離手話認識器(ISR)から得られる疎な予測と、K-Shot LLMのアプローチを用いて、これらの注釈を推定します。このパイプラインのために、シンプルでありながら効果的な基礎(ベースライン)の指文字化モデルおよびISRモデルを構築し、FSBoard(6.7% CER)およびASL Citizenデータセット(74% top-1精度)で最先端(state-of-the-art)を達成しました。検証およびゴールドスタンダードのベンチマークを提供するために、プロの通訳者がASL STEM Wikiから約500本の動画に対し、グロス、分類子、指文字化サインを含む、シーケンスレベルのグロスラベルを付与しました。これらの人手による注釈と、300時間超の疑似注釈が補足資料として公開されます。
手話言語モデルによる手話注釈のブートストラップ
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、完全に注釈された学習データが高コストであることにより生じる、AIの手話解釈におけるボトルネックを、部分的に注釈されたデータセットを出発点として用いることで解消することを扱っている。
- 英語と手話動画を入力として、グロス、指文字化された語、手話分類器に対する注釈候補(時間区間つき)を順位付けして生成する疑似注釈パイプラインを提案する。
- この手法は、専用コンポーネント(指文字認識器と単独手話認識器)による疎な予測と、K-shotのLLMプロンプト戦略を組み合わせ、もっともらしい注釈を推定する。
- さらに、指文字化および単独手話認識のためのベースラインモデルも導入しており、高い性能を達成している(FSBoardでCER 6.7%、ASL Citizenでtop-1 74%)。
- ベンチマークと検証を支えるため、著者らは、専門の通訳者によるシーケンス単位のゴールドスタンダード注釈を含む約500本の動画を収集し、それらを公開するとともに、300時間超の疑似注釈も補足資料として公開している。


