Contextual Earnings-22: 自然環境におけるカスタム語彙付き音声認識ベンチマーク

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、音声からテキストへの進歩が学術ベンチマークでは頭打ちに見えるのは、これらが一般的な語彙を過度に代表しているためであり、実世界での使いやすさは、まれで状況に特化したカスタム用語を認識できるかに大きく依存する、という主張がなされている。
Earnings-22 から派生した新しいオープンデータセット Contextual Earnings-22 を提案し、実世界での転写性能をより適切に測定するために、現実的なカスタム語彙の文脈を追加している。
著者らは、研究の評価を比較可能にするために、主要な2つの戦略であるキーワードのプロンプト提示とキーワードのブースティングに対して、それぞれ6つの強力なベースラインモデルを提示している。
実験により、両アプローチはいずれも同程度の精度を達成し、小規模な概念実証から大規模なシステムへ移行することで顕著な改善が見られることが示されている。