LLMデコーダは公平に「聞いて」いるのか?言語モデルの事前分布が音声認識のバイアスに与える影響をベンチマークする

arXiv cs.CL / 2026/4/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 9つの大型言語モデル(LLM)デコーダ方式について、LLMがテキスト由来の事前分布を使うことで、民族・アクセント・性別・年齢・母語といった属性ごとの音声認識バイアスが改善するのか悪化するのかを検証した。
  • Common Voice 24とMetaのFair-Speech(語彙の影響を排除する制御プロンプト)により、約4.3万発話を用いて評価した結果、LLMデコーダは概ね人種的なバイアスを増幅しない一方で、Whisperはインド訛りの音声で深刻な幻覚を非単調に引き起こすことが示された。
  • 12種類の音響劣化条件(ノイズ、残響、無音注入、チャンクマスキングなど)でストレステストすると、極端な劣化では全グループが高いWERに収束して公平度の差が縮む一方、無音注入はWhisperのアクセントバイアスを大きく増幅し得ることが分かった。
  • マスキング下ではWhisperが壊滅的な反復ループに陥りやすいのに対し、明示的なLLMデコーダは挿入が大幅に少なく反復もほぼゼロであること、さらに高圧縮の音声符号化はLLMデコーダ側でも反復問題を再導入し得ることが報告された。
  • 総じて、音声認識の公平性と頑健性を左右する主なレバーはLLMデコーダのスケーリングよりも、音声エンコーダ設計(音響アーティファクトへの耐性を含む)であると結論づけている。

要旨: 事前学習済みの大規模言語モデルが音声認識におけるタスク固有のデコーダを置き換えるにつれて、重要な問いが生じます。これらのテキスト由来の事前知識(prior)は、人口統計グループ間で認識をより公平にするのでしょうか、それともより偏らせるのでしょうか? 本研究では、3世代のアーキテクチャ(言語モデルなしのCTC、暗黙のLMを持つエンコーダ・デコーダ、明示的に事前学習されたデコーダを用いるLLMベース)にまたがる9つのモデルを、Common Voice 24 と、語彙による混乱要因を排除する制御済みプロンプトデータセットである Meta の Fair-Speech を用いて評価します。評価は、民族、アクセント、性別、年齢、第一言語という5つの人口統計軸にわたり、約43,000の発話を対象に行います。クリーンな音声において、3つの発見が従来の前提を覆します。第一に、LLMデコーダは人種間のバイアスを増幅しません(Granite-8B が民族の公平性で最良、max/min WER = 2.28)。第二に、Whisper はインド訛りの音声で病理的な幻覚を示し、大規模v3では挿入率が単調でない急増となり、9.62% に達します。第三に、音声の圧縮が LLM のスケールよりもアクセントの公平性をより強く予測します。次に、これらの知見を 12 の音響劣化条件(雑音、残響、無音の注入、チャンクのマスキング)で、両データセットに対してストレステストします。合計 216 回の推論を実施しました。深刻な劣化は逆説的に公平性の差を圧縮し、全てのグループが高い WER に収束しますが、無音注入は、人口統計選択的な幻覚を引き起こすことで、Whisper のアクセント・バイアスを最大 4.64 倍まで増幅します。マスキング下では、Whisper は壊滅的な反復ループに入り(51,797 回の挿入のうち 86%)、一方で明示的なLLMデコーダは、ほぼ反復ゼロで挿入を 38 倍少なくします。高圧縮の音声符号化(Q-former)は、LLMデコーダにおいてさえ反復の病理を再導入します。これらの結果は、公平で頑健な音声認識の主要なレバーが LLM のスケーリングではなく、音声エンコーダの設計であることを示唆しています。