AI Navigate

Triple X: INTERSPEECH2025 MLC-SLMチャレンジ用のLLMベース多言語音声認識システム

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Triple Xシステムは、MLC-SLMチャレンジ Task 1における多言語対話音声認識に取り組むため、エンコーダー-アダプター-LLMアーキテクチャを採用しています。
  • テキストベースの大規模言語モデルの推論能力を、ドメイン特化の適応と、大規模な多言語音声データセット上で慎重に設計された多段階トレーニングパイプラインと組み合わせています。
  • 実験結果は、開発セットとテストセットの両方で競争力のある単語誤り率(WER)を示し、このアプローチがチャレンジで2位を達成した。
  • 本研究は、エンコーダー-アダプター・フレームワークをLLMsと統合することが、多言語ASRの性能向上につながる現実的な可能性を示しており、さらなる改善の方向性を提案しています。
  • アーキテクチャとトレーニング戦略を共有することにより、本論文は、多言語データとLLMsを音声認識に活用しようとする研究者に対して、実践的な設計図を提供しています。

要旨: 本論文は、Multi-Lingual Conversational Speech Language Modeling (MLC-SLM) チャレンジのタスク1に提出した私たちの Triple X 音声認識システムを説明します。私たちの研究は、革新的なエンコーダ-アダプター-LLM アーキテクチャを通じて、多言語対話シナリオにおける音声認識精度の最適化に焦点を当てています。このフレームワークは、テキストベースの大規模言語モデルの強力な推論能力を活用しつつ、ドメイン固有の適応を組み込んでいます。多言語認識性能をさらに向上させるために、広範な多言語音声データセットを活用した綿密に設計された多段階トレーニング戦略を採用しました。実験結果は、私たちのアプローチが開発データセットとテストデータセットの両方で競争力のある Word Error Rate(WER)性能を達成し、チャレンジのランキングで2位を獲得したことを示しています。

返却形式: {"translated": "翻訳されたHTML"}