広告

Ara-Best-RQ:多言語(多方言)対応アラビア語SSL

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Ara-BEST-RQ は、多方言アラビア語の音声処理向けに調整された自己教師あり学習モデルのファミリであり、方言識別(DID)や自動音声認識(ASR)といったタスクのために訓練される。
  • 本研究では、Creative Commons から収集したアラビア語音声 5,640時間と、公開されているデータセットを組み合わせて、最大 6億パラメータ規模までの conformer ベースの BEST-RQ モデルを事前学習する。
  • 結果として、競合手法よりも少ないパラメータ数でありながら、方言識別において最先端の性能が示される。
  • 著者らは、アラビア語において方言ファミリーに特化した事前学習は、非アラビア語データで訓練した多言語モデルまたは単言語モデルと比べて、下流タスクの性能を向上させることを見出している。
  • すべてのモデル、コード、前処理済みデータセットは、再現性を高め、さらなる研究を促進するために公開予定である。

概要: 私たちは、多ダイアレクト(複数方言)にまたがるアラビア語音声処理のために特化して設計された自己教師あり学習(SSL)モデルのファミリーである Ara-BEST-RQ を提案します。5,640時間のクローリングされたクリエイティブ・コモンズの音声を活用し、さらに公開されているデータセットと組み合わせることで、最大6億パラメータまでのコンフォーマーベースの BEST-RQ モデルを事前学習します。これらのモデルは、方言識別(DID)および自動音声認識(ASR)のタスクで評価されており、前者では最先端の性能を達成しつつ、競合モデルよりも少ないパラメータ数で運用します。非アラビア語データで学習した多言語モデルまたは単言語モデルと比べて、アラビア語の方言を対象にしたファミリー向け事前学習が、下流タスクでの性能を大幅に向上させることを示します。再現性の確保と、アラビア語音声技術に関するさらなる研究を支援するために、すべてのモデル、コード、および前処理済みデータセットを公開します。

広告