モデルが考えていることと、その話し方をつなぐ:表現力豊かな音声生成のための自己認識型スピーチ言語モデル

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 実験の結果、800時間の表現力豊かな音声で学習した3BパラメータのSA-SLMは、オープンソースのベースラインを上回り、EchoMindベンチマークにおいて全体的な表現力の点でGPT-4o-Audioに近づいた。