多言語音声言語モデルのための効率的な学習

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語の音声データが乏しい状況でも音声に特化した対話をより良く機能させることを目的とした、クロスリンガル音声LLM向けの効率的な学習アプローチ「CSLM」を提案する。
  • CSLMは、離散的な音声トークンと、継続的な事前学習(continual pre-training)に基づくアラインメント戦略を用いて、クロスモーダル(音声-テキスト)とクロスリンガルの両方のアラインメントを実現する。
  • 音声テキストのインターリーブ(交互)による、チェーン・オブ・モダリティ生成プロセスに続く指示(instruction)微調整によって、モーダルのアラインメント粒度を改善し、レイテンシを低減する。
  • 本手法は、大規模な追加の音声コーパスなしで言語をまたいだスケールを想定しており、実験により、クロスモーダル、単言語、およびクロスリンガルの会話タスクにおいて高い性能が示されている。
  • 著者らは、再現性の確保とさらなる実験を支援するために、リンクされたGitHubリポジトリでコードを提供している。

要旨: 現在、大規模言語モデル(LLM)は主としてテキストのモダリティに焦点を当てています。より自然な人間とAIの相互作用を実現するために音声LLMが登場しつつありますが、データが限られていることに加え、より多くの言語へ拡張することが難しいため、有効なエンドツーエンドの音声LLMを構築するのは依然として困難です。本論文では、離散的な音声トークンに基づくクロスリンガル音声言語モデル(CSLM)を提案します。これは、クロスリンガルな音声LLMのための効率的な学習手法です。連続的な事前学習によって、モダリティ間および言語間のアラインメントを達成する新しい整列戦略を提案します。音声とテキストを交互に行うチェーン・オブ・モダリティ生成プロセスに続けて指示微調整を行うことで、より細かな粒度でモダルのアラインメントを強化し、それにより生成品質を向上させ、レイテンシを低減します。CSLMは、大規模な音声データを必要とせずに、異なるモダリティと異なる言語を同時に整列させるため、言語スケーラビリティが良好です。クロスモーダル課題、単一言語の会話課題、およびクロスリンガルの会話課題での評価により、CSLMが強力なクロスモーダル・アラインメント能力と汎用的な課題遂行能力を備えていることが示されます。(コードは以下で利用可能: https://github.com/ictnlp/CSLM)