潜在的な思考で考える:グロス不要手話翻訳の新しいパラダイム

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、グロス不要の手話翻訳(SLT)は動画をそのまま文字へ写すのではなく、主に文脈・空間・動きによって意味がその場で構築されるため「クロスモーダル推論」として捉えるべきだと主張しています。
  • 提案手法では、ビデオ入力と生成テキストの間に「潜在的な思考(latent thoughts)」の順序付きシーケンスを明示的な中間層として用い、意味を時間とともに抽出・整理します。
  • 「plan-then-ground(計画してから根拠づける)」デコーディングにより、まず何を言うかを決め、その後に動画へ戻って根拠を探すことで、まとまり(coherence)と忠実性(faithfulness)を高めています。
  • 大規模な新しいグロス不要SLTデータセットも構築・公開予定で、文脈依存を強め、より現実的な意味を扱うよう設計されています。
  • 複数のベンチマークにおける実験で、既存のグロス不要手法に対して一貫した改善が示されています。また、受理後にコードとデータを公開する予定です。

概要: 多くのSLTシステムは、署名(サイン)による短い断片が、話し言語の単語に直接対応すると静かに前提にしています。しかしこの前提は、署名者が文脈・空間・動作を使ってその場で意味を作り出すことが多いため、成り立ちません。私たちはSLTを再検討し、それが単なる単純なビデオからテキストへの変換ではなく、主としてクロスモーダル推論の課題であると主張します。そこで、ビデオと生成されるテキストの間に明示的な中間層として、潜在的な思考の順序づけられた系列を用いる、推論主導型のSLTフレームワークを導入します。これらの潜在的な思考は、時間の経過とともに徐々に意味を抽出し、整理していきます。さらに、計画してから根拠づける(plan-then-ground)デコード手法を用います。すなわち、モデルはまず何を言いたいかを決め、その後でビデオに立ち返って根拠となる情報を探します。この分離により、首尾一貫性と忠実さが向上します。加えて、より強い文脈依存性と、より現実的な意味を備えた、新しい大規模なグロス無しSLTデータセットを構築し、公開しました。複数のベンチマークにわたる実験により、既存のグロス無し手法に対して一貫した改善が示されました。コードとデータは、受理(acceptance)後に https://github.com/fletcherjiang/SignThought で公開されます。