HATL: 手話機械翻訳のための階層的適応転移学習フレームワーク

arXiv cs.AI / 2026/3/23

📰 ニュースModels & Research

共有:

要点

HATLはダイナミックな凍結解除、層ごとの学習率減衰、および安定性メカニズムを導入し、過剰適合を避けつつ事前学習表現を手話翻訳へ適応させる。
学習のパフォーマンスに基づいて事前学習層を順次凍結解除し、一般的な特徴を保持しつつ手話の特徴へ適応する。
HATLはSign2TextとSign2Gloss2Textで、ST-GCN++バックボーンとAdaptive Transformer（ADAT）を用い、PHOENIX14T、Isharah、MedASLデータセット上で評価され、顕著な改善を達成した。
実験結果は、ADATを使用した場合、PHOENIX14TおよびIsharahでBLEU-4が15.0%、MedASLで37.6%の改善を示し、従来の転移学習ベースラインを上回った。

要旨：手話機械翻訳（SLMT）は、聴覚障がい者と聴者の間のコミュニケーションを橋渡しすることを目的としています。しかし、その進展はデータセットの不足、署名者の多様性の限界、手話モーションパターンと事前学習済み表現との間に大きなドメインギャップがあることによって制約されています。SLMTにおける既存の転移学習アプローチは静的であり、過学習を招くことが多いです。これらの課題は、言語的・署名の変動にも対応しつつ、事前学習済みの構造を保持する適応型フレームワークの開発を求めています。これを埋めるべく、階層的適応転移学習（HATL）フレームワークを提案します。これは、事前学習済みの層を訓練パフォーマンスの挙動に基づいて段階的かつ動的にアンフリーズします。HATLは、動的なアンフリーズ、レイヤー毎の学習率減衰、安定性メカニズムを組み合わせて、手話の特徴に適応しつつ汎用表現を保持します。特徴抽出には事前学習済みのST-GCN++バックボーンを用い、翻訳にはTransformerと適応型Transformer（ADAT）を用いて、Sign2TextおよびSign2Gloss2Text翻訳タスクでHATLを評価します。多言語的な堅牢な一般化を確保するため、提案手法を3つのデータセット：RWTH-PHOENIXWeather-2014（PHOENIX14T）、Isharah、およびMedASLで評価します。実験結果は、HATLがタスクとモデルを問わず従来の転移学習アプローチを一貫して上回ることを示しており、ADATはPHOENIX14TとIsharahでBLEU-4を15.0%改善し、MedASLでは37.6%改善を達成しています。

返却形式: {"translated": "翻訳されたHTML"}

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

HATL: 手話機械翻訳のための階層的適応転移学習フレームワーク

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？