グロスフリー手話翻訳:分野の進展を公正に評価する

arXiv cs.CV / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 本論文は、主要なグロスフリーSLT手法を統一コードベースで再実装し、前処理、ビデオエンコーダ、訓練設定を標準化して、公平な比較を可能にしている。
  • 多くの報告された性能向上は、一貫した評価条件下で縮小することが分かり、結果に対する実装の細部や指標の影響の大きさを浮き彫りにしている。
  • 本研究は、改善が、SLTの根本的な進歩ではなく、バックボーン、訓練の微調整、あるいは指標の選択に由来する可能性を示唆している。
  • 著者らは、SLT研究の透明性と再現性を支援するため、公開コードリポジトリを公開している。
  • 将来のSLT研究において、標準化された評価プロトコルと徹底的なアブレーション研究を求めている。

要旨:手話翻訳(SLT)は、視覚的な手話ビデオを自動的に口語のテキストへ、そしてその逆へ変換することを目的としています。
近年は急速な進歩が見られる一方で、性能向上の真の要因はしばしば不明のままです。報告されている性能向上は、方法論的な新規性によるものなのか、それとも別のバックボーンの選択、トレーニングの最適化、ハイパーパラメータの調整、あるいは評価指標の算出方法の違いによるものなのか?
本論文は、最新のグロスフリー(gloss-free)SLTモデルを対象に、統一されたコードベースで主要な貢献を再実装することにより、包括的な研究を行います。
前処理、ビデオエンコーダ、トレーニング設定をすべての手法で標準化することにより、公正な比較を保証します。
我々の分析は、文献で報告されている多くの性能向上は、モデルが一貫した条件下で評価されるとしばしば低下することを示しています。これは、実装の細部や評価設定が結果を決定する上で重要な役割を果たすことを示唆します。
SLT研究の透明性と再現性を支援するために、ここでコードベースを公開します(https://github.com/ozgemercanoglu/sltbaselines)。