グロスなし手話翻訳のための選択的コントラスト学習

arXiv cs.CL / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、手話動画と書き言葉の間にあるモダリティの不一致という課題に着目し、グロスなし手話翻訳のためのクロスモーダル整合を扱っています。
CLIP型の視覚言語事前学習では、ランダムなバッチ内ネガティブが意味的に類似（または同一）のペアをネガティブとして誤ラベル化し、アラインメント用の教師データがノイズ化しうると指摘しています。
訓練中のネガティブ動画-テキスト類似度の軌跡を追跡する分析により、コントラスト学習に必要な挙動を一貫して示すネガティブはごく一部に限られることを示しています。
著者らは SCL-SLT（Selective Contrastive Learning for SLT）として、Pair Selection（PS）戦略を提案し、参照チェックポイント間の類似度ダイナミクスで候補ネガティブをスコアリングしたうえで、ミニバッチをカリキュラムに基づいて構成し、より困難で有益なネガティブを段階的に強調します。
これにより、有益でない／意味的に不正なネガティブの影響を抑えつつ、より強いコントラスト学習による教師信号と整合の改善が期待されます。

要旨: 手話翻訳（SLT）は、連続する手話動画を話し言葉のテキストへ変換するが、特にグロスなしの設定では、視覚的な手話と書記言語との本質的なモダリティ不一致により、依然として困難が残っている。近年のSLTシステムは、クロスモーダル整合のためにCLIPのような視覚言語事前学習（VLP）を採用することが増えている。しかし、バッチ内のランダムなコントラストでは、ほとんどバッチ依存の否定例しか得られず、意味的に類似（あるいは同一）のペアを否定例として誤ってラベル付けしてしまう可能性があり、ノイズの多い、そして潜在的に一貫性のない整合の教師信号が生じる。本研究ではまず、学習中の負の動画―テキスト類似度を追跡する、予備的な軌跡（トラジェクトリ）ベースの分析を行う。その結果、求められる「一貫して遠ざけられる」という挙動を示す否定例はごく一部に限られている一方で、残りの否定例では、異質であり、しばしば非減少的な類似度ダイナミクスが観察される。これは、ランダムなバッチ内否定例が、効果的な整合のために十分に有益でない場合が多いことを示唆している。そこで本研究では、手話翻訳のための選択的コントラスト学習（SCL-SLT）を提案する。提案法は、ペア選択（PS）戦略を用いる。PSは参照チェックポイントから得られる類似度ダイナミクスによって候補となる否定例にスコアを付け、より難しい否定例を徐々に強調するカリキュラムによってミニバッチを構築する。これにより、コントラスト学習の教師信号を強化しつつ、ノイズの多い、または意味的に妥当でない否定例の影響を低減する。