概要: 音声は急速に、基盤モデルの主要なインターフェースになり、リアルタイムの音声アシスタントを支えています。音声システムの安全性を確保することは、「読み上げられた危険なテキスト」ただそれだけよりも、本質的により複雑です。現実のリスクは、音声ネイティブの有害なサウンドイベント、話者属性(たとえば子どもの声)、なりすまし/音声クローニングの悪用、そして、子どもの声に性的コンテンツが加わるといった、音声とコンテンツの組み合わせに起因する危害に左右され得ます。音声の性質により、この固有のリスク環境に対して包括的なベンチマークやガードレールを開発することは困難です。このギャップを埋めるために、私たちは音声システムに対して大規模なレッドチーミングを実施し、音声における脆弱性を体系的に明らかにするとともに、包括的で政策に基づいた音声リスク分類法と、AudioSafetyBench を開発します。これは多様な脅威モデルにわたる最初の、政策に基づく音声安全性ベンチマークです。AudioSafetyBench は、多様な言語、疑わしい声(たとえば著名人/なりすましおよび子どもの声)、危険な声とコンテンツの組み合わせ、ならびに非音声のサウンドイベントをサポートします。これらの脅威に対抗するために、私たちは AudioGuard を提案します。これは統一型のガードレールであり、1) 音声波形レベルでの音声ネイティブ検出のための SoundGuard と、2) 政策に根差した意味的保護のための ContentGuard から構成されます。AudioSafetyBench および補完的な 4 つのベンチマークに関する広範な実験により、AudioGuard は強力な音声 LLM ベースラインと比べて、ガードレールの精度を一貫して改善し、かつ遅延を大幅に低くできることが示されます。
AudioGuard:多様な脅威モデルにまたがる包括的な音声安全保護に向けて
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、基盤モデルの音声インターフェースとともに用いられる音声システムの保護は、テキストの安全性よりも複雑であると主張する。理由は、脅威が音声ネイティブの有害な音イベント、話者属性の悪用、そして音声コンテンツの合成に起因する害(例:子どもの声と性的コンテンツの組み合わせ)を含むためである。
- 方針(ポリシー)に基づくリスク分類法(リスク・タクソノミー)と、AudioSafetyBenchを提案する。AudioSafetyBenchは、複数の脅威モデル、言語、疑わしい声の種類(著名人/なりすまし、子どもの声)、危険な声×コンテンツの組み合わせ、非言語の音イベントをまたぐ音声安全性のための初のベンチマークとして説明される。
- 著者らは大規模なレッドチーミングを実施して音声脆弱性を体系的に明らかにし、その知見を用いてベンチマークとガードレール(防護柵)アプローチの動機づけを行っている。
- SoundGuard(波形レベルで音声ネイティブの脅威を検出)とContentGuard(セマンティック/ポリシーに基づく保護)を統合した統一型ガードレールとして、AudioGuardを提案する。
- AudioSafetyBenchおよび追加の補完的ベンチマークでの実験により、AudioGuardは強力な音声LLMのベースラインに比べて精度を向上させつつ、レイテンシを低減し、実運用のリアルタイム展開を目指していると主張している。
