深層フェイク音声検出のための音声分類に適用した量子ビジョン理論(Quantum Vision Theory)

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「量子ビジョン(QV)理論」を、深層学習のための量子に着想を得た表現手法として提案し、分類の前に音声特徴を「情報波(information waves)」へ変換する。
  • この手法を深層フェイク音声検出に適用し、STFT、メルスペクトログラム、MFCCをQVブロックを通して情報波へ変換したうえで、QVベースのCNNおよびVision Transformer(ViT)を学習する。
  • ASVSpoofデータセットでの実験により、QV-CNNおよびQV-ViTは標準的なCNN/ViTのベースラインを上回り、本物の音声とスプーフィング音声を区別する精度と頑健性の双方が向上することが示される。
  • 最良の報告結果では、MFCCを用いたQV-CNNで精度94.20%、EER 9.04%が得られ、メルスペクトログラムを用いたQV-CNNでは精度が最高値となる(94.57%)。
  • 著者らは、これらの結果は音声知覚および深層フェイク検出の課題における「量子に着想を得た学習(quantum-inspired learning)」の有望な方向性を示唆すると主張している。

Abstract

本稿では、ディープラーニングに基づく音声分類のための新しい視点として、ディープフェイク音声検出に適用される量子ビジョン(Quantum Vision: QV)理論を提案する。量子物理学における粒子‐波動の二重性に着想を得たQV理論は、データが観測され、崩壊した形(観測可能な形)だけでなく、情報の波としても表現できるという考えに基づいている。従来の深層学習では、画像のようなこれらの崩壊表現に対してモデルを直接学習させる。一方、QV理論では、入力をまずQVブロックによって情報の波へ変換し、その後、分類のために深層学習モデルへ投入する。QVに基づくモデルは、QVを用いない従来のモデルと比べて画像分類における性能を向上させる。では、音声のスペクトログラムを音声分類タスクへ適用する際にQV理論を用いたらどうなるだろうか。提案アプローチの動機および新規性はここにある。本研究では、音声信号の短時間フーリエ変換(Short-Time Fourier Transform: STFT)、メルスペクトログラム、メル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients: MFCC)を、提案するQVブロックを用いて情報の波へ変換し、その情報の波を用いてQVに基づく畳み込みニューラルネットワーク(QV-CNN)およびQVに基づくビジョントランスフォーマ(QV-ViT)を学習させる。深層フェイク音声分類のためにASVSpoofデータセットで大規模な実験を行う。その結果、QV-CNNおよびQV-ViTはいずれも、標準的なCNNおよびViTモデルを一貫して上回り、本物の音声と偽装音声を区別する際の分類精度の向上と頑健性の改善を達成する。さらに、MFCC特徴量を用いたQV-CNNモデルはASVspoofデータセットにおいて最良の総合性能を示し、精度94.20%、EER 9.04%を達成する。一方、メルスペクトログラムを用いたQV-CNNは最高の精度94.57%を得る。これらの知見は、QV理論が音声ディープフェイク検出に対して有効で有望なアプローチであり、音声知覚タスクにおける量子に触発された学習の新たな方向性を切り開くことを示している。