手話モデルを用いた手話アノテーションのブートストラップ
Apple Machine Learning Journal / 2026/4/30
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この論文は、手話の解釈を行うAIが高品質なアノテーション付きデータの不足により制約されている点に取り組んでいます。
- ASL STEM WikiやFLEURS-ASLといった、新たにプロの通訳者を含み数百時間規模の映像データを備えるデータセットがある一方、部分的にしかアノテーションされておらず十分に活用できないと指摘しています。
- アノテーション費用を抑えるため、著者らは「擬似アノテーション」パイプラインを提案し、手話動画と英語を入力として、グロスや指文字語などの候補を時間区間付きでランキング出力します。
- このパイプラインは、グロス、指文字の単語、そして手話分類器の出力といった複数のアノテーション種別を対象とし、スパースな予測を活用してラベリングを段階的に拡張します。
AI駆動の手話解釈は、高品質なアノテーションデータの不足によって制限されています。ASL STEM WikiやFLEURS-ASLといった新しいデータセットは、プロの通訳者と数百時間規模のデータを含むものの、部分的にしかアノテーションされていないため、十分に活用されていません。これは、とりわけこの規模でのアノテーションにはコストが高すぎることが一因です。本研究では、入力として手話の動画と英語を受け取り、グロス、指文字の単語、手話分類器を含む、あり得るアノテーションの候補(時間区間を含む)を順位付きで出力する疑似アノテーションのパイプラインを開発します。このパイプラインは…
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



