潜在的な思考で考える：グロス不要手話翻訳の新しいパラダイム

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、グロス不要の手話翻訳（SLT）は動画をそのまま文字へ写すのではなく、主に文脈・空間・動きによって意味がその場で構築されるため「クロスモーダル推論」として捉えるべきだと主張しています。
提案手法では、ビデオ入力と生成テキストの間に「潜在的な思考（latent thoughts）」の順序付きシーケンスを明示的な中間層として用い、意味を時間とともに抽出・整理します。
「plan-then-ground（計画してから根拠づける）」デコーディングにより、まず何を言うかを決め、その後に動画へ戻って根拠を探すことで、まとまり（coherence）と忠実性（faithfulness）を高めています。
大規模な新しいグロス不要SLTデータセットも構築・公開予定で、文脈依存を強め、より現実的な意味を扱うよう設計されています。
複数のベンチマークにおける実験で、既存のグロス不要手法に対して一貫した改善が示されています。また、受理後にコードとデータを公開する予定です。

概要: 多くのSLTシステムは、署名（サイン）による短い断片が、話し言語の単語に直接対応すると静かに前提にしています。しかしこの前提は、署名者が文脈・空間・動作を使ってその場で意味を作り出すことが多いため、成り立ちません。私たちはSLTを再検討し、それが単なる単純なビデオからテキストへの変換ではなく、主としてクロスモーダル推論の課題であると主張します。そこで、ビデオと生成されるテキストの間に明示的な中間層として、潜在的な思考の順序づけられた系列を用いる、推論主導型のSLTフレームワークを導入します。これらの潜在的な思考は、時間の経過とともに徐々に意味を抽出し、整理していきます。さらに、計画してから根拠づける（plan-then-ground）デコード手法を用います。すなわち、モデルはまず何を言いたいかを決め、その後でビデオに立ち返って根拠となる情報を探します。この分離により、首尾一貫性と忠実さが向上します。加えて、より強い文脈依存性と、より現実的な意味を備えた、新しい大規模なグロス無しSLTデータセットを構築し、公開しました。複数のベンチマークにわたる実験により、既存のグロス無し手法に対して一貫した改善が示されました。コードとデータは、受理（acceptance）後に https://github.com/fletcherjiang/SignThought で公開されます。

langchain-anthropic==1.4.1 の変更点

LangChain Releases

反重力とクラウドAIが出会う：手間のかからない開発の未来

Dev.to

DOMノイズでトークンを浪費しない：Playwright MCPのオプティマイザー層

Dev.to

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

Dev.to

AIが会社を動かす理由：怖がる必要はありません、むしろワクワクすべきです

Dev.to

潜在的な思考で考える：グロス不要手話翻訳の新しいパラダイム

要点

関連記事

langchain-anthropic==1.4.1 の変更点

反重力とクラウドAIが出会う：手間のかからない開発の未来

DOMノイズでトークンを浪費しない：Playwright MCPのオプティマイザー層

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

AIが会社を動かす理由：怖がる必要はありません、むしろワクワクすべきです

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer