AI Navigate

HATL: 手話機械翻訳のための階層的適応転移学習フレームワーク

arXiv cs.AI / 2026/3/23

📰 ニュースModels & Research

要点

  • HATLはダイナミックな凍結解除、層ごとの学習率減衰、および安定性メカニズムを導入し、過剰適合を避けつつ事前学習表現を手話翻訳へ適応させる。
  • 学習のパフォーマンスに基づいて事前学習層を順次凍結解除し、一般的な特徴を保持しつつ手話の特徴へ適応する。
  • HATLはSign2TextとSign2Gloss2Textで、ST-GCN++バックボーンとAdaptive Transformer(ADAT)を用い、PHOENIX14T、Isharah、MedASLデータセット上で評価され、顕著な改善を達成した。
  • 実験結果は、ADATを使用した場合、PHOENIX14TおよびIsharahでBLEU-4が15.0%、MedASLで37.6%の改善を示し、従来の転移学習ベースラインを上回った。

要旨:手話機械翻訳(SLMT)は、聴覚障がい者と聴者の間のコミュニケーションを橋渡しすることを目的としています。しかし、その進展はデータセットの不足、署名者の多様性の限界、手話モーションパターンと事前学習済み表現との間に大きなドメインギャップがあることによって制約されています。SLMTにおける既存の転移学習アプローチは静的であり、過学習を招くことが多いです。これらの課題は、言語的・署名の変動にも対応しつつ、事前学習済みの構造を保持する適応型フレームワークの開発を求めています。これを埋めるべく、階層的適応転移学習(HATL)フレームワークを提案します。これは、事前学習済みの層を訓練パフォーマンスの挙動に基づいて段階的かつ動的にアンフリーズします。HATLは、動的なアンフリーズ、レイヤー毎の学習率減衰、安定性メカニズムを組み合わせて、手話の特徴に適応しつつ汎用表現を保持します。特徴抽出には事前学習済みのST-GCN++バックボーンを用い、翻訳にはTransformerと適応型Transformer(ADAT)を用いて、Sign2TextおよびSign2Gloss2Text翻訳タスクでHATLを評価します。多言語的な堅牢な一般化を確保するため、提案手法を3つのデータセット:RWTH-PHOENIXWeather-2014(PHOENIX14T)、Isharah、およびMedASLで評価します。実験結果は、HATLがタスクとモデルを問わず従来の転移学習アプローチを一貫して上回ることを示しており、ADATはPHOENIX14TとIsharahでBLEU-4を15.0%改善し、MedASLでは37.6%改善を達成しています。

返却形式: {"translated": "翻訳されたHTML"}