Habibi：統一方言型アラビア語音声合成のためのオープンソース基盤を築く

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Habibi は、主要な方言間の語彙／音韻上の大きなギャップがあるにもかかわらず、12 以上の地域方言をカバーするために設計された、オープンソースの統一方言アラビア語テキスト読み上げ（TTS）フレームワークである。
本システムは、複数ステップのキュレーション（選別）パイプラインによりオープンソースの ASR コーパスを TTS 学習データへ転用し、さらに言語学的に情報を与えたカリキュラム学習戦略を用いることで、テキストの母音記号（ダイアクリティカルマーク）の付与なしで頑健なゼロショット方言合成を可能にする。
提供されるリリースには、標準化された初のマルチ方言アラビア語 TTS ベンチマークが含まれており（7 つの方言サブセットにまたがる 11,000+ 発話）、手作業で検証済みの書き起こしが提供される。
ベンチマーク上で、Habibi の統一モデルは方言ごとの専用モデルと同等、または上回る性能を示し、自動評価と人手評価の結果では、可聴性（intelligibility）、話者の類似性（speaker similarity）、自然さ（naturalness）の各指標で、ElevenLabs の Eleven v3（alpha）と競争力のあることが示されている。
著者らは、約 8,000 H100 GPU 時間を用いた広範なアブレーション研究を支援基盤として、全チェックポイント、学習／推論コード、そしてベンチマークデータもオープンソース化している。

抽象: アラビア語は30を超える話し言葉の多様体にまたがりますが、それらを統一するオープンソースのテキスト読み上げ（TTS）システムは存在しません。主な障壁には、大きな方言間の語彙的および音韻論的な相違、合成品質に適したデータの不足、そして標準化された多様体（マルチダイアレクト）の評価ベンチマークの欠如があります。私たちは、この3つすべてに対処する統一多様体（ユニファイド・ダイアレクト）型アラビア語TTSフレームワークであるHabibiを提示します。多段階のキュレーション（精選）パイプラインを通じて、オープンソースのASRコーパスを転用し、12以上の地域方言をカバーするTTS学習データへと変換します。言語学的知見に基づくカリキュラム学習戦略――現代標準アラビア語から方言データへと段階的に進む――により、テキストのダイアクリティカルマーク（発音区別符号）付与なしで堅牢なゼロショット合成を可能にします。さらに、手動で検証されたトランスクリプトを含む7つの方言サブセットにまたがって11,000件超の発話からなる、最初の標準化された多様体アラビア語TTSベンチマークを公開します。このベンチマーク上で、私たちの統一モデルは、方言ごとの専門モデルと同等、あるいはそれを上回ります。自動評価指標と人手による評価の両方により、Habibiは、明瞭性、話者類似性、自然さの面で、ElevenLabsのEleven v3（alpha）と非常に競争力が高いことが確認されました。広範なアブレーション（約8,000 H100 GPU時間、30以上の構成）により、各設計上の選択が検証されています。私たちは、すべてのチェックポイント、学習・推論コード、ベンチマークデータをオープンソースで公開します――多様体アラビア語TTSにおける最初のこの種のリリースです――https://SWivid.github.io/Habibi/ 。