低リソース多言語音声翻訳のための勾配に基づく学習

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低リソースの多言語・音声からテキストへの翻訳問題に対し、言語間で一様に層を共有すると表現上の競合が生じ、収束を遅らせる、または妨げうることを示す。
訓練勾配の信号を抽出し、複数の分析戦略を用いることで、層ごとの共有パターンを自動的に選択する「勾配に基づく」手法を提案する。
提案手法には以下が含まれる：(1) 距離ベースの言語クラスタリング、(2) 自タスク／他タスクの発散指標によるモデル容量の割り当て、(3) 共通相関分析（canonical correlation analysis）を用いた学習済みサブスペースの整合のためのジョイント因子分解。
SeamlessM4T-Medium アーキテクチャを用いた4つの言語ペアに関する実験では、音声翻訳の品質指標において一貫した改善が報告される。