クロスモーダル注意とハイブリッド損失による堅牢な音声—テキスト検索

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、ノイズの多い長い音声入力を自然言語クエリにより適切に対応させる音声—テキスト検索を扱い、マルチメディア検索やアクセシビリティなどの用途を狙います。
  • 音声とテキストの埋め込みを、トランスフォーマーによる投影、線形マッピング、双方向注意を組み合わせたクロスモーダル注意ベースの埋め込み精緻化モジュールで改善するマルチモーダル枠組みを提案しています。
  • 大規模バッチ学習に依存せずに学習を安定化するため、コサイン類似度、L1項、コントラスティブ目的を組み合わせたハイブリッド損失を提案しています。
  • 沈黙を考慮したチャンク分割と注意に基づくプーリングにより、報告されているSNR(5〜15)の範囲で長尺・ノイズ音声の性能を高めています。
  • ベンチマークデータセットでの実験により、従来手法より検索精度が向上することが示されています。