HARnESS:軽量化された蒸留アラビア語音声基盤モデル

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HArnESSは、大規模SSLモデルのサイズによる制約を、資源の限られた環境でも展開可能にすることを目的とした新しいアラビア語中心の自己教師あり音声モデル群です。
  • 大規模なバイリンガル(アラビア語-英語)の教師モデルから始め、反復的な自己蒸留により、ASR(自動音声認識)や方言識別(DID)、音声感情認識(SER)向けの軽量な学生モデルを訓練します。
  • さらに、浅く細い学生アーキテクチャの能力により適合させるために、教師の監督信号をPCAで圧縮する手法も検討しています。
  • 実験では、HuBERTやXLS-Rに比べてアラビア語の下流タスクで一貫して性能が向上し、構造を大幅に削減した圧縮モデルでも競争力が維持されると報告されています。
  • 総じて、HArnESSは現実のアラビア語音声アプリに向けた、精度と効率の両立がしやすい基盤として位置づけられています。

要約: 大規模な自己教師あり音声(SSL)モデルは下流タスクで強力な性能を発揮しますが、そのサイズの大きさが、リソースに制約のある環境での導入を難しくしています。私たちは、反復的な自己蒸留によってスクラッチから学習した、アラビア中心の自己教師あり音声モデル群であるHArnESSを提示します。あわせて、軽量な学生(student)バリアントも提示し、音声認識(ASR)、方言識別(DID)、および音声感情認識(SER)において、精度と効率の優れたトレードオフを提供します。私たちの手法は、大規模なバイリンガル(アラビア語-英語)教師モデルから始め、アラビア語に関連する音響的表現および準言語的(paralinguistic)表現を保持しながら、その知識を圧縮した学生モデルへと段階的に蒸留します。さらに、浅く薄い学生の能力により適切に合わせるために、教師の監督信号をPCAベースで圧縮することについても検討します。HuBERTおよびXLS-Rと比較して、HArnESSはアラビア語の下流タスクで一貫して性能を向上させますが、圧縮モデルは大幅な構造削減の下でも競争力を維持します。これらの結果により、HArnESSは、実世界の音声アプリケーションに向けた、実用的でアクセスしやすいアラビア中心のSSL基盤として位置づけられます。