低資源のインド諸語における音声濫用検出のための少数ショット対比的適応

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語のソーシャルメディアの音声インタラクションにおける濫用発話検出を対象とし、典型的なASR→テキストのパイプラインが転記誤りや韻律の喪失によって失敗しやすい低資源のインド諸語に焦点を当てている。
  • 話題の評価として、ADIMAデータセットを用いて、濫用を音声から直接検出するための対比的言語-音声事前学習(CLAP)表現を検討する。
  • 実験では、クロスリンガル学習と leave-one-language-out(1言語を除外する)設定を伴う、少数ショットの教師あり対比的適応を行い、比較のためにゼロショット・プロンプティングも実施する。
  • 結果として、CLAPは10のインド諸語にわたって強力なクロスリンガルな音声表現を提供し、場合によっては、軽量な射影(プロジェクション)のみの適応が、全データを用いて学習した完全教師ありモデルの性能に匹敵し得ることが示される。
  • 少数ショット適応による改善は言語ごとに異なり、ラベル付き例を単に増やせばよいわけではない。これは不完全で言語固有の転移を示唆している。

要旨: 衝撃的な(有害な)発話の検出は、特に多言語および低リソース環境において、ソーシャルメディアが音声ベースの対話へと移行するにつれて、ますます重要になっています。現在のほとんどのシステムは、自動音声認識(ASR)に続いてテキストベースのヘイトスピーチ分類を行いますが、このパイプラインは文字起こしの誤りに弱く、音声が担う韻律情報を捨ててしまいます。本研究では、対照言語・音声事前学習(CLAP)が音声から直接、衝撃的な発話の検出を支えられるかを検討します。ADIMAデータセットを用いて、クロスリンガル設定および1言語を除外する(leave-one-language-out)設定において、少数ショットの教師ありコントラスティブ適応(few-shot supervised contrastive adaptation)のもとでCLAPベースの表現を評価します。補助的な分析として、ゼロショット・プロンプティングも含めます。結果として、CLAPは10のインド諸語にわたって強力なクロスリンガルな音声表現をもたらすこと、また軽量な射影(プロジェクション)のみの適応が、完全な学習データで訓練した完全教師ありシステムに対して競争力のある性能を達成できることを示しました。ただし、少数ショット適応の利点は言語依存であり、ショット数の増加に対して単調に改善するわけではありません。これらの知見は、対照的な音声・テキストモデルが、低リソース環境におけるクロスリンガルな音声による不正(有害)発話検出の有望な基盤となることを示唆すると同時に、重要な点で転移が不完全であり言語固有のままであることも示しています。