AI Navigate

Polyglot-Lion: Qwen3-ASRのバランスの取れたファインチューニングによるシンガポール向けの効率的な多言語ASR

arXiv cs.CL / 2026/3/18

📰 ニュースTools & Practical UsageModels & Research

要点

  • Polyglot-Lion は、シンガポールの言語構成(英語、マンダリン、タミル、マレー語)に合わせて設計されたコンパクトな多言語ASRモデルのファミリーであり、公開データを用いたバランスの取れたサンプリングと言語タグ条件を用いない状態で Qwen3-ASR モデルをファインチューニングして得られたものである。
  • アプローチは各言語ごとの訓練用発話数を均等化し、明示的なタグに頼ることなく音声から言語を推定できるようにする。
  • 対象言語4言語にまたがる12のベンチマークで、Polyglot-Lion-1.7B は平均誤り率 14.85 を達成し、前者が約6分の1のサイズであるにもかかわらず MERaLiON-2-10B-ASR と競合する結果となった。
  • 学習コストは劇的に低く、単一の RTX PRO 6000 GPU での $81 に対して、128-GPU ベースラインでは $18,862 となる。
  • 推論スループットは約20倍高速で、0.10 秒/サンプル対 2.02 秒/サンプル。
  • これらの結果は、言語的にバランスの取れたファインチューニングを施した中規模の事前学習モデルが、より大きな専門システムのコストの一部で実用的な多言語ASRを実現できる可能性を示唆している。

概要: 私たちは Polyglot-Lion を紹介します。これは、シンガポールの言語環境に合わせたコンパクトな多言語自動音声認識(ASR)モデルのファミリーで、英語、マンダリン、タミル語、マレー語を対象としています。私たちのモデルは、公開されている音声コーパスのみに専用にファインチューニングすることによって得られ、言語ごとの訓練発話数を均等化するバランスの取れたサンプリング戦略を用い、言語タグ条件付けを意図的に省略することで、モデルが音声から言語を暗黙的に識別するように学習します。対象の4言語を含む12のベンチマークにおいて、Polyglot-Lion-1.7B は平均エラー率 14.85 を達成し、6倍大きいモデル MERaLiON-2-10B-ASR (14.32) と競合します。これに対し、単一の RTX PRO 6000 GPU でのトレーニングコストは 81、128-GPU ベースラインは 18,862 となります。推論スループットは MERaLiON より約 20 倍高速で、0.10 秒/サンプル対 2.02 秒/サンプルです。これらの結果は、中規模の事前学習済みモデルを言語的にバランス良くファインチューニングすることで、より大規模な専門系システムのコストのごく一部で、デプロイ可能な多言語ASRを実現できることを示しています。