V.O.I.C.E(Voice, Ownership, Identity, Control, Expression):実データに基づく合成音声生成のリスク分類

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生成型ボイスモデルの進歩と一般利用の拡大に伴い、無断で収集・再利用・合成される音声データが、既存の脅威モデルでは十分に捉えきれていない新たなプライバシー、セキュリティ、ガバナンス上のリスクを生むと主張しています。
  • そのギャップを埋めるため、同論文は「V.O.I.C.E」というリスク分類(タクソノミー)を提示し、主要なAIインシデントDB、FTC、IC3の569件のインシデントを用いたマルチソースの脅威モデリングに基づいています。
  • さらに、1,067件の米国在住の参加者による直接報告(ボイス俳優、インターネット・パーソナリティ、政治関係者、一般の人々を含む)と、2,221件のRedditでの議論を加えて、現実データに根差した枠組みになっています。
  • V.O.I.C.Eは、リスクが「何であるか」だけでなく、どのようにリスクが生まれるか、また曝露の度合い、社会的な可視性、影響を受けるグループごとの法的保護の利用可能性といった文脈要因がリスクに与える影響も明示的にモデル化しています。
  • 本研究は、合成音声の悪用シナリオに対するより実証的な枠組みを提供することで、ガバナンスや防御の改善につなげることを目的としています。

要旨: 生成的音声モデルが能力と一般的な利用の両面で急速に進歩するにつれ、同意のない音声データの収集・再利用・合成が、新たな種類のプライバシー、セキュリティ、およびガバナンス上のリスクを生み出している。しかし、それらのリスクは、既存の(概ね一様な)脅威モデルでは十分に捉えられていない。そこで本研究では、そのギャップを埋めるために、主要なAIインシデントデータベース、FTC、およびインターネット犯罪苦情センター(IC3)からの569件のインシデント、(音声俳優、インターネット・パーソナリティ、政治関係者、一般の人々を含む)多様なグループに属する米国拠点の参加者による1067件の直接的なインシデント報告、および2,221件のReddit上の議論に基づく、多ソースの脅威モデリングの取り組みにより裏付けられた、音声生成リスクの分類体系であるV.O.I.C.Eを提示する。実世界のデータに基づき、我々の分類体系は、リスクがどのように生じるのかを明示的にモデル化し、暴露の程度、社会的な可視性、そしてさまざまな被影響グループに対する法的保護の利用可能性といった文脈要因とどのように相互作用するかを扱う。