要旨: 大規模言語モデル(LLM)の最近の進歩は、特に音声から音声への会話システムにおけるマルチモーダル・シナリオへと能力を拡張することに大きな関心を集めています。しかし、音声とテキストが相互に交互に現れる入力を扱う既存のマルチモーダル・モデルは、自己回帰(AR)手法に依存しており、テキストがターゲット—ターゲット関係に依存する一方で、音声は主にソース—ターゲット関係に依存する、という点を見落としています。本研究では、単一のTransformerにおいてARのテキスト生成と非自己回帰(NAR)の音声拡散を統合する統一的な音声—テキストフレームワークText-to-Talk(TtT)を提案します。吸収型離散拡散のany-order AR特性を活用することで、テキストと音声に対して統一された学習目的を提供します。このハイブリッド生成パラダイムを支えるために、モダリティに配慮した注意機構を設計し、テキストでは因果的デコードを強制しつつ、音声スパン内では双方向のモデリングを可能にします。さらに、学習時と推論時の不一致を低減する3つの学習戦略を導入します。推論においては、TtTはブロックごとの拡散を用いて音声を並列に合成し、可変長の出力にも柔軟に対応します。Audio-QA、ASR、AAC、および音声から音声へのベンチマークに関する包括的な実験により、TtTが強力なARおよびNARのベースラインを一貫して上回ることを示します。さらに、アブレーションおよび学習戦略の分析により、各コンポーネントの寄与が確認されます。我々は、この方向性における今後の研究を促進するために、モデル、データ、コードをオープンソース化します。
テキストからトークへ:音声言語モデルには非自己回帰の共同学習が必要
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のテキスト−音声マルチモーダルモデルの多くが自己回帰(AR)アプローチを採用しているが、テキストと音声は依存関係の構造が異なるため別様にモデル化されるべきだと主張している(ターゲット−ターゲット対 ソース−ターゲット)。
- それに対し、本論文では Text-to-Talk(TtT)を提案する。これは、ARのテキスト生成と、非自己回帰(NAR)の音声拡散を統合したユニファイドなTransformerフレームワークであり、単一の目的関数のもとで共同学習を可能にする。
- 提案手法では「吸収型離散拡散(absorbing discrete diffusion)」を活用し、テキストに対して因果的デコーディングを強制しつつ、音声区間内では双方向的なモデリングを許容するモダリティ対応の注意(attention)機構を導入している。
- 学習時と推論時の不一致を減らすために、著者らは3つの学習戦略を追加し、推論時にはブロック単位の並列拡散を用いることで、可変長出力に対して音声を効率よく合成する。
- Audio-QA、ASR、AAC、ならびにスピーチ・トゥ・スピーチのベンチマークにまたがる実験では、強力なARおよびNARのベースラインを上回ると報告されており、アブレーションにより各コンポーネントの寄与が支持されている。