要旨: 本論文は、Multi-Lingual Conversational Speech Language Modeling (MLC-SLM) チャレンジのタスク1に提出した私たちの Triple X 音声認識システムを説明します。私たちの研究は、革新的なエンコーダ-アダプター-LLM アーキテクチャを通じて、多言語対話シナリオにおける音声認識精度の最適化に焦点を当てています。このフレームワークは、テキストベースの大規模言語モデルの強力な推論能力を活用しつつ、ドメイン固有の適応を組み込んでいます。多言語認識性能をさらに向上させるために、広範な多言語音声データセットを活用した綿密に設計された多段階トレーニング戦略を採用しました。実験結果は、私たちのアプローチが開発データセットとテストデータセットの両方で競争力のある Word Error Rate(WER)性能を達成し、チャレンジのランキングで2位を獲得したことを示しています。
返却形式: {"translated": "翻訳されたHTML"}

