要旨: LLMや音声アシスタントは、タスク指向のやり取りにますます使われている一方で、その評価はしばしば、現実のユーザ要求のばらつきや複雑さを捉えきれない管理されたシナリオに依存しています。たとえばドリンク注文では、多様な固有表現、ドリンクの種類、サイズ、カスタマイズ、ブランド固有の用語が関わるほか、ためらいや言い直しといった自発的な発話現象も含まれます。このギャップに対処するために、私たちはStarDrinksを導入します。これは英語と韓国語のテストセットで、音声発話の特徴、転写、注釈付きスロットを含みます。私たちのデータセットは、音声からスロットへのSLU、転写からスロットへのNLU、そして音声から転写へのASR評価をサポートし、言語的に豊かな現実世界のタスクにおけるモデルの頑健性と汎化性能を測る、現実的なベンチマークを提供します。
StarDrinks:飲み物注文シナリオにおけるSLU評価のための英語・韓国語テストセット
arXiv cs.CL / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、タスク指向のLLMや音声アシスタントの評価が、現実のユーザー要求のばらつきを十分に反映できていないことを指摘しています。
- StarDrinksは、飲み物の注文シナリオを対象に、固有表現や飲料の種類・サイズ・カスタマイズ、ブランド特有の呼称などを含む英語・韓国語のテストセットとして提案されています。
- データセットには、ためらい発話や言い直しといった自発的な発話現象も含め、自然なユーザー行動をより忠実に再現することを目指しています。
- StarDrinksはスロット(枠)アノテーションを提供し、speech-to-slots SLU、transcription-to-slots NLU、speech-to-transcription ASRといった複数の評価に対応します。
- 総じて、このベンチマークは、言語的に複雑な現実タスクにおいて、音声・テキストの両モダリティをまたいだ頑健性と汎化性能を評価することを目的としています。




