広告

多言語音声認識のためのLLMベース・音素から綴りへの変換(P2G)の進展

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語の自動音声認識に対して、ASRを音声から音素(S2P)とP2Gのモジュールに分解することで、LLMベースの音素から綴りへの変換(P2G)手法を検討する。
  • 言語を意識したテキスト生成や、言語間のデータ不均衡は、S2Pを共有していても性能を低下させ得るため、多言語P2Gは難しいと主張する。
  • 著者らは、10言語のCV-Lang10ベンチマークを用いて、S2P出力の不確実性に対処することを目的としたロバスト性戦略(DANPおよび簡略化したSKMの変種であるS-SKM)を評価する。
  • S-SKMは、P2G学習時にCTCベースのS2P確率の重み付けを排除することで、学習の安定性と有効性を高めるモンテカルロ近似として提示される。
  • ロバスト学習に加えて低リソース側のオーバーサンプリングを行うことで、平均WERは10.56%から7.66%へ改善しており、多言語LLMベースP2Gに対する有意な改善の道筋が示される。

要旨: 音素ベースのASRは、認識を音声から音素(S2P)と音素からグラフェム(P2G)に分解し、言語固有の正書法を別モジュールに保持したまま、言語横断的な音響共有を可能にする。大規模言語モデル(LLM)はP2Gに有望であるが、多言語P2Gは、言語に応じた生成と、深刻な言語間データ不均衡のために依然として困難である。我々は、10言語CV-Lang10ベンチマークにおける、多言語LLMベースのP2Gを研究する。DANPおよび簡略化SKM(S-SKM)を含む、S2Pの不確実性を考慮した頑健性戦略を検討する。S-SKMは、P2G学習においてCTCベースのS2P確率の重み付けを回避するモンテカルロ近似である。頑健な学習と低リソースのオーバーサンプリングにより、平均WERは10.56%から7.66%に低下する。

広告
多言語音声認識のためのLLMベース・音素から綴りへの変換(P2G)の進展 | AI Navigate