モデルが考えていることと、その話し方をつなぐ:表現力豊かな音声生成のための自己認識型スピーチ言語モデル
arXiv cs.CL / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 実験の結果、800時間の表現力豊かな音声で学習した3BパラメータのSA-SLMは、オープンソースのベースラインを上回り、EchoMindベンチマークにおいて全体的な表現力の点でGPT-4o-Audioに近づいた。
arXiv cs.CL / 2026/4/14