深層フェイク音声検出のための音声分類に適用した量子ビジョン理論(Quantum Vision Theory)
arXiv cs.CL / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「量子ビジョン(QV)理論」を、深層学習のための量子に着想を得た表現手法として提案し、分類の前に音声特徴を「情報波(information waves)」へ変換する。
- この手法を深層フェイク音声検出に適用し、STFT、メルスペクトログラム、MFCCをQVブロックを通して情報波へ変換したうえで、QVベースのCNNおよびVision Transformer(ViT)を学習する。
- ASVSpoofデータセットでの実験により、QV-CNNおよびQV-ViTは標準的なCNN/ViTのベースラインを上回り、本物の音声とスプーフィング音声を区別する精度と頑健性の双方が向上することが示される。
- 最良の報告結果では、MFCCを用いたQV-CNNで精度94.20%、EER 9.04%が得られ、メルスペクトログラムを用いたQV-CNNでは精度が最高値となる(94.57%)。
- 著者らは、これらの結果は音声知覚および深層フェイク検出の課題における「量子に着想を得た学習(quantum-inspired learning)」の有望な方向性を示唆すると主張している。
