AI Navigate

LESS: 現実世界データを用いた音声基盤モデル向けの大規模言語モデル強化半教師あり学習

arXiv cs.CL / 2026/3/16

💬 オピニオンTools & Practical UsageModels & Research

要点

  • LESS は、ASR(自動音声認識)または AST(自動音声翻訳)により現実世界データ上で生成された疑似ラベルを修正するために、大規模言語モデルを活用する半教師あり学習フレームワーク内で、現実世界の音響変動の課題に対処します。
  • このアプローチには、LLMで修正されたラベルをさらに洗練させ、SSL の性能を強化するデータフィルタリングのステップが含まれます。
  • マンダリン(標準中国語)のASR およびスペイン語から英語へのAST評価において、LESS は WenetSpeech でWERを絶対3.8ポイント低減し、CallhomeでBLEUを0.8、Fisherで0.7のBLEU向上を達成し、言語横断・タスク横断の有効性を示します。
  • 著者らは、手法のさらなる研究と実践的適用を促進するためのオープンソースのレシピを公開しています。

要約: 最先端の音声基盤モデルは高品質なテキストの疑似ラベルを生成できるものの、実世界データに対してSemi-Supervised Learning (SSL) を適用することは、キュレーションされたデータセットと比較してより豊富で複雑な音響特性のため、依然として課題です。課題に対処するため、LESS(Large Language Model Enhanced Semi-supervised Learning)を導入します。これは、Large Language Models (LLMs) を用いて現実世界データで生成された疑似ラベルを修正する汎用的なフレームワークです。LESSフレームワークでは、教師なしデータの Automatic Speech Recognition (ASR) または Automatic Speech Translation (AST) によって得られた疑似ラベル付きテキストを、LLMが洗練させ、さらにデータフィルタリング戦略によって改善します。マンダリンASRとスペイン語-英語ASTの評価を横断して、LESSは一貫した利得をもたらし、WenetSpeechでのWord Error Rate(WER)の絶対削減は3.8ポイント、BLEUスコアの上昇は0.8と0.7で、Callhomeデータセットで34.0、Fisherデータセットでそれぞれ64.7を達成しました。これらの結果は、多様な言語、タスク、ドメインにわたるLESSの有効性を示しています。このレシピをオープンソースとして公開し、この領域のさらなる研究を促進します。