私はAI生成音楽の検出に取り組んでいて、Deezerのチームが論文で記載していたのと同じ壁にぶつかりました。メルスペクトログラム上でのCNNベースの検出は、音声がMP3に圧縮されると破綻します。
問題: メルスペクトログラムで訓練したResNet18はWAVファイルではうまく機能しますが、実世界の音楽はMP3/AACとして配信されています。圧縮によって、CNNが依拠している微妙なスペクトルのアーティファクトが失われます。
実際にうまくいったこと: CNNをより頑健にするのをやめて、ソースセパレーション(Demucs)に基づく2つ目のエンジンを追加しました。考え方はシンプルです:
- トラックを4つのステム(ボーカル、ドラム、ベース、その他)に分離する
- それらを再ミックスする
- 元の音声と再構成した音声の差を測定する
人が録音した音楽では、録音中にステム同士が互いににじみます(部屋の残響、マイクのクロストークなど)ため、分離+再構成によって明確な差が生まれます。一方、AI音楽では、各ステムが独立に合成されるため、分離と再構成の結果はほぼ同一になります。
結果:
- 人間の誤検出率: 約1.1%
- AI検出率: 80%+
- 音声コーデックに関係なく動作(MP3、AAC、OGG)
CNNは簡単なケース(高い自信の予測)を処理し、再構成エンジンはCNNが確信できないときだけ起動します。ソースセパレーションは高コストなので、これにより計算量を節約できます。
制限:
- 検出率は異なるAIジェネレーター間で変動する
- Demucsは非決定的で、境界ケースでは実行ごとに結果が反転し得る
- 音楽のみでテスト済みで、音声や効果音は未検証
誰かが同様のハイブリッド手法を探求したことがあるか、あるいは再構成分析をより頑健にするアイデアがあるか気になります。
[link] [comments]
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



