[P] Deezer、圧縮オーディオではCNN検出が失敗することを示す—MP3を生き残るデュアルエンジン方式

Reddit r/MachineLearning / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

メルスペクトログラムのアーティファクトを手がかりに、AI生成音楽を検出するよう訓練されたCNN検出器は、WAV音声では機能するが、MP3/AACなどの一般的なコーデックで信号が圧縮されると失敗し、モデルが依存している手がかりが失われる。
提案する回避策は、デュアルエンジンのハイブリッドで、音源分離モデル（Demucs）がトラックをステムに分割し、それを再構成したうえで、再構成が元音源とどれだけ一致するかを確認する。
この手法は、人間の録音では録音条件に起因するステムの「ブリード」（混ざり）が生じるという行動上の重要な違いを利用する。再構成のズレは人間の録音で大きくなりやすい一方、独立に合成されたAIステムは再構成がより似たものになりやすい。
報告された結果では、人間側の誤検出率が約1.1%、AIの検出が80%超とされる。また、MP3、AAC、OGGといった複数のコーデックにまたがって性能が維持されると主張されている。これは、壊れやすく圧縮に敏感なスペクトル由来のアーティファクトへの依存を避けているためだ。
システムは計算コストを抑えるため、分離・再構成の高負荷処理はCNNの確信が低い場合にのみ実行する。ただし、検出精度はAI生成器ごとに変わり得て、境界例では分離ステップが非決定的になる可能性がある。

私はAI生成音楽の検出に取り組んでいて、Deezerのチームが論文で記載していたのと同じ壁にぶつかりました。メルスペクトログラム上でのCNNベースの検出は、音声がMP3に圧縮されると破綻します。

問題: メルスペクトログラムで訓練したResNet18はWAVファイルではうまく機能しますが、実世界の音楽はMP3/AACとして配信されています。圧縮によって、CNNが依拠している微妙なスペクトルのアーティファクトが失われます。

実際にうまくいったこと: CNNをより頑健にするのをやめて、ソースセパレーション（Demucs）に基づく2つ目のエンジンを追加しました。考え方はシンプルです：