MuDD：多モーダル・ディセプション検出データセットとGSR誘導型プロセッシブ・ディスティリレーションによる非接触ディセプション検出

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、130人の参加者から取得した多モーダル記録（動画、音声、GSR）を用いた、大規模な非接触ディセプション検出データセット「MuDD」を導入する。総収録時間は690分で、より信頼性の高い被験者間学習を可能にすることを目的としている。
MuDDには、追加の生理信号（フォトプレチスモグラフィ、心拍）および性格特性も含まれており、詐欺（欺瞞）に関連する幅広い研究に対してデータセットの有用性を拡張している。
接触型のGSRと非接触信号との間に生じるモダリティ不一致に対処するため、著者らはクロスモーダル知識蒸留を用いた「GSR誘導型プロセッシブ・ディスティリレーション（GPD）」を提案する。
GPDは、段階的な特徴レベルおよび桁レベルの蒸留と、動的ルーティングを組み合わせることで、学習中にどの教師知識を転移するかをモデルが適応的に判断できるようにする。
実験結果によれば、GPDは従来手法よりも性能を向上させ、ディセプション検出および隠匿桁識別において最先端（state-of-the-art）の結果を達成している。

Abstract

非接触型の自動欺瞞検出は、視覚および聴覚の欺瞞に関する手がかりがしばしば被験者間で安定したパターンを欠くため、依然として難しい課題です。これに対して、皮膚電気反応（GSR）はより信頼性の高い生理学的手がかりを提供し、接触型の欺瞞検出に広く用いられてきました。本研究では、GSRに含まれる欺瞞関連の安定した知識を活用し、クロスモーダル知識蒸留によって非接触モダリティにおける表現学習を導きます。しかし、この設定に適したデータセットが存在しないことが大きな障害です。そこで、この課題に対処するため、130人の参加者から690分間にわたる記録を含む大規模マルチモーダル欺瞞検出データセットであるMuDDを提案します。MuDDは、ビデオ、オーディオ、GSRに加えて、フォトプレチスモグラフィー、心拍数、パーソナリティ特性も提供し、欺瞞に関するより幅広い科学的研究を支えます。このデータセットに基づき、GSRと非接触信号の間にある大きなモダリティ不一致によって生じる負の転移を緩和するための、クロスモーダル蒸留フレームワークであるGSRガイド付きプロレッシブ蒸留（GPD）を提案します。GPDの中核的な革新は、動的ルーティングとともに、段階的な特徴レベル蒸留および桁（digit）レベル蒸留を統合する点にあります。これにより、学習中に教師の知識をどのように転移すべきかをモデルが適応的に決定でき、より安定したクロスモーダル知識転移につながります。大規模な実験と可視化の結果、GPDは既存手法を上回り、欺瞞検出と隠匿桁の同定の両方において最先端（state-of-the-art）の性能を達成することが示されます。