要約(TLDR): Appen Inc. と DataoceanAI は、複数のアクセントにわたって、台本のある音声と会話形式の音声をカバーする高品質な英語ASRデータセットを提供してくれました。ベンチマキシング(benchmaxxing)やテストセットの汚染(test-set contamination)の潜在的なリスクを防ぐため、複数のタスクにおける高品質な性能評価のため、これらのデータセットは非公開のままにします。
現時点では平均WERは更新しません:デフォルトでは、リーダーボードの平均WERは公開データセットのみを使って計算され続けます。トグルで非公開データセットを任意で含めて、それらの影響をご確認いただけます
2023年9月の公開以来、Open ASR Leaderboard は710K回以上アクセスされています。スピーチ認識をさらに前進させ続けようとするコミュニティの関心とモチベーションに、私たちは圧倒されています️
Open ASR Leaderboardのようなベンチマークを維持する上での目的(ただし課題でもあります)を表すのは、次の2つの言葉です:
標準化: モデルには、その利用方法や出力の点で異なる慣習があり得ます。たとえば、句読点の有無や大文字・小文字の扱いなどです。データセットにも同様の課題があり、構造が異なる場合があります。そこで、すべてのテストセットは、アクセスとプレビューを容易にするため、Hub上の1つのデータセットに集約されています。さらに、モデルの出力とデータセットの文字起こしを標準化するために、normalizer を使用します。このnormalizerは(他にも)句読点と大文字・小文字を取り除き、アメリカ式の綴りに対応づけます。これは、Whisper のnormalizerに基づいています。
オープン性: UIコードと評価スクリプトはオープンソースとして公開されています。これにより、新しいモデルを取り込むことができるだけでなく、コミュニティからのフィードバックや貢献を通じて評価手順の品質を向上させることにも役立っています。
標準化とオープン性は、意味のあるベンチマークのために不可欠ですが、同時にベンチマーク固有の最適化(「ベンチマックス(benchmaxxing)」)にも、ベンチマークをより脆弱にしてしまいます。これは、モデルがリーダーボード上の性能は向上させるものの、現実世界での頑健性には対応する改善が見られない場合です。モデルや利用シナリオが進化するにつれて、Open ASR Leaderboardは、現実世界のパフォーマンスをより正確に反映し、ベンチマーク固有の最適化に対する頑健性を高めるために、高品質なデータセットと新しい評価設定を継続的に取り入れていきます。
レポートで議論しているとおり、単一の「万能」ASRモデルは存在しません。アメリカ英語でより良い性能を示すものもあれば、多様なアクセントや多言語設定でより良いものもあり、また速度や会話音声向けに最適化されたものもあります。さらに、異なるアプリケーションは異なる能力を優先するため、ある次元での性能が低いからといって、モデル全体として必ずしも劣っているとは限りません。Open ASR Leaderboardの目的は、こうしたニュアンスを捉え、ASRの性能をより包括的な観点から示すことです。
新しい高品質なプライベートデータセット
この目的のために、私たちはAppen Inc.およびDataoceanAIと協力し、ASRベンチマーク用の高品質なデータセットを厳選してきました。以下はいくつかの分割(スプリット)に関する情報です。
| データセット | アクセント | 所要時間 [h] | 男性 (%) / 女性 (%) | スタイル | 文字起こし |
|---|---|---|---|---|---|
| Appen Scripted AU | オーストラリア英語 | 1.42 | 49 / 51 | 朗読 | 句読点付き、大小文字区別あり。 |
| Appen Scripted CA | カナダ英語 | 1.53 | 52 / 48 | 朗読 | 句読点付き、大小文字区別あり。 |
| Appen Scripted IN | インド英語 | 1.02 | 49 / 51 | 朗読 | 句読点付き、大小文字区別あり。 |
| Appen Scripted US | アメリカ英語 | 1.45 | 49 / 51 | 朗読 | 句読点付き、大小文字区別あり。 |
| Appen Conversational IN | インド英語 | 1.37 | 51 / 49 | 会話、自然発話 | 句読点付き、つなぎ言葉(フィラー)・言い淀みを含む。 |
| Appen Conversational US003 | アメリカ英語 | 1.64 | 49 / 51 | 会話、自然発話 | 句読点付き、大小文字区別あり、つなぎ言葉(フィラー)・言い淀みを含む。 |
| Appen Conversational US004 | アメリカ英語 | 1.65 | 49 / 51 | 会話、自然発話 | 句読点付き、つなぎ言葉(フィラー)・言い淀みを含む。 |
| DataoceanAI Scripted US | アメリカ英語 | 2.43 | 54 / 46 | 朗読 | 句読点付き、大小文字区別あり(固有名詞)、つなぎ言葉(フィラー)・言い淀みを含む。 |
| DataoceanAI Scripted GB | イギリス英語 | 2.43 | 47 / 53 | 朗読 | 句読点付き、つなぎ言葉(フィラー)・言い淀みを含む。 |
| DataoceanAI Conversational US | アメリカ英語 | 8.82 | NA | 会話、自然発話 | 句読点付き、つなぎ言葉(フィラー)・言い淀みを含む。 |
| DataoceanAI Conversational GB | イギリス英語 | 5.96 | NA | 会話、自然発話 | 句読点付き、つなぎ言葉(フィラー)・言い淀みを含む。 |
以下は、内容の多様性(朗読・会話、略語、つなぎ言葉・言い淀み、固有名詞)を示すサンプル音声です。
プライベートデータセットがオープン性の精神に反するように聞こえるかもしれませんが、そのようなデータセットを取り入れることで、Open ASR Leaderboardの信頼性を高めることができると私たちは考えています。プライベートデータセットは、モデル開発者が公開されたテストセットを明示的に利用する場合や、マクロ平均でスコアを押し上げるために特定のデータセットにかなり近い学習データを見つけようとする場合などにおいても、ベンチマックス(benchmaxxing)に悪用される可能性が低いためです。
これらのデータセットを用いることで、統制された状態であり、かつ多くの場合すでに飽和しがちな条件(朗読、アメリカ英語アクセント)と、よりニュアンスのある条件(会話、非アメリカ英語アクセント)の間にあるギャップやバイアスを浮き彫りにするための、的を絞った指標も提供できます。以下は、新しい「Private data」タブのスクリーンショットです。
以下は、各列がどのように計算されるかです。
- 「Average WER」は、データ提供者ごとの平均値のマクロ平均を計算するため、各提供者に同じ重みが付けられます。
- 「Avg Scripted」は、全ての朗読データセットのマクロ平均を計算します。
- 「Avg Conversational」は、全ての会話データセットのマクロ平均を計算します。
- 「Avg US」は、アメリカ英語アクセントを含む全てのデータセットのマクロ平均を計算します。
- 「Avg non-US」は、非アメリカ英語アクセントを含む全てのデータセットのマクロ平均を計算します。
特定のデータ提供者やアクセントに対して、モデル開発者がスコアを押し上げることを避けるため、各スプリットごとのスコアは意図的に提供しません。
このデータで自分のモデルをどのように評価できますか?
モデルをOpen ASR Leaderboardに載せましょう。こちらで評価を実行します!これまでと同様に、リーダーボードにモデルを追加するプロセスは Open ASR Leaderboard の GitHub 上で行います:
- プルリクエストを開くと、model checklist が表示されます。これまでと同様に、公的データセットでの結果を報告してください。
- 公開セット上で結果を検証し、プライベートのものではメトリクスを計算します。
- 取得した結果を確認します。
モデルが Open ASR Leaderboard に追加されるまでの間、モデルカードに この ような YAML ファイルを追加することで、公的セット上でのメトリクスを自己申告できます。すると、データセットページ(下のスクリーンショット参照)に表示される(未検証の)リーダーボードに、あなたのモデルが掲載されます。この分散型評価へのアプローチについては こちら をご覧ください。
データ提供元で訓練されたモデルは有利ですか?
そうなる可能性はあります。私たちは Appen と DataoceanAI に対し、このデータをクライアントに提供しないよう依頼しました。しかし、もしこの厳密なデータを提供していないとしても、同様の分布のデータは、対応する評価セットでモデルの助けになる可能性があります(公開セットの中で難しいタスクに最適化することでベンチマックスするのと同様です)。そのため、複数のデータ提供元を用意することで、いずれか1社の提供データを使ったことによってモデルが得るかもしれない有利さを相殺しています。そして「Private data」タブに、さらにデータ提供元や評価セットを追加していくことも歓迎しています!
さらに、プライベートセットがモデルの順位付けに影響しないようにするため、平均 WER のマクロ平均(macroaverage)では、デフォルトで Private sets を含めないようにしています。
下のスクリーンショットでは「Private data」がオフになっているのが分かります。つまり、データセット間のマクロ平均にはそれが含まれません。
「Private data」をオンにするだけで、マクロ平均に含めるための分割が反映されます。
「Rank Δ」列は、デフォルトのマクロ平均設定と比べて並び順がどのように変わるかを示します。公開データセットを含める/含めないこともマクロ平均を変えるため、ユーザーは評価を、自身のアプリケーションに最も関連するユースケースやデータ分布に合わせて調整できます。
次に何がありますか?
新しいトラックとデータセットの切り替え機能が、ユーザーが自身のアプリケーションに最も適したモデル(複数可)を見つけるのにどう役立つかについて、コミュニティの皆さんのフィードバックを伺えることを楽しみにしています。また、現実のノイズの多い状況をより反映する評価についても調査しており、そのうち何かお知らせできるはずです
プライベート評価セットを準備するにあたり、データセット間で音声と文字起こしの品質が一貫するよう、特別な注意を払いました。たとえば、低い信号対雑音比(SNR)や文字起こしの不一致(トランスクリプトのミスマッチ)といった、難しいケースを特定するためのツールの開発などです。これらの要因は WER に大きく影響し得るためです。詳細は、今後の投稿でお伝えします!




