手話言語モデルによる手話注釈のブートストラップ

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、完全に注釈された学習データが高コストであることにより生じる、AIの手話解釈におけるボトルネックを、部分的に注釈されたデータセットを出発点として用いることで解消することを扱っている。
英語と手話動画を入力として、グロス、指文字化された語、手話分類器に対する注釈候補（時間区間つき）を順位付けして生成する疑似注釈パイプラインを提案する。
この手法は、専用コンポーネント（指文字認識器と単独手話認識器）による疎な予測と、K-shotのLLMプロンプト戦略を組み合わせ、もっともらしい注釈を推定する。
さらに、指文字化および単独手話認識のためのベースラインモデルも導入しており、高い性能を達成している（FSBoardでCER 6.7%、ASL Citizenでtop-1 74%）。
ベンチマークと検証を支えるため、著者らは、専門の通訳者によるシーケンス単位のゴールドスタンダード注釈を含む約500本の動画を収集し、それらを公開するとともに、300時間超の疑似注釈も補足資料として公開している。

要旨: AIによる手話（サインランゲージ）の解釈は、高品質で注釈（アノテーション）が付いたデータの不足によって制限されています。ASL STEM WikiおよびFLEURS-ASLを含む新しいデータセットには、プロのインタープリタ（通訳者）と数百時間規模のデータが含まれますが、十分に注釈が付けられていないため、部分的にしか活用されていません。これは、この規模で注釈付けを行うための費用が過大であることが一因です。本研究では、入力として手話の動画と英語を受け取り、グロス（要約表現）、指文字化された単語（ファンガースペリング）、および手話分類器に対する、もっともらしい注釈のランキング付き集合（時間区間を含む）を出力する疑似注釈（pseudo-annotation）パイプラインを開発します。私たちのパイプラインは、指文字認識器および分離手話認識器（ISR）から得られる疎な予測と、K-Shot LLMのアプローチを用いて、これらの注釈を推定します。このパイプラインのために、シンプルでありながら効果的な基礎（ベースライン）の指文字化モデルおよびISRモデルを構築し、FSBoard（6.7% CER）およびASL Citizenデータセット（74% top-1精度）で最先端（state-of-the-art）を達成しました。検証およびゴールドスタンダードのベンチマークを提供するために、プロの通訳者がASL STEM Wikiから約500本の動画に対し、グロス、分類子、指文字化サインを含む、シーケンスレベルのグロスラベルを付与しました。これらの人手による注釈と、300時間超の疑似注釈が補足資料として公開されます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/10Dailyインサイトを見る →

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

手話言語モデルによる手話注釈のブートストラップ

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透