言語非依存のリップシンク深フェイク検出のための生体力学的制約違反のモデリング

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、従来のリップシンク深フェイク検出が、ピクセル単位のアーティファクトや音声・映像の対応関係に依存しており、言語をまたいだ一般化が難しい点を指摘しています。
自然な口腔顔面の動作（発話時の発音・口の動き）の生体力学的制約が、生成モデルでは守られないことにより、時間的なリップの分散が上昇するという原理を提案しています。
この不一致を「temporal lip jitter（時間的リップ・ジッタ）」として定義し、言語、民族性、録画条件といった要因を跨いでも経験的に一貫して観測されることを示します。
提案原理を実装するために、MediaPipeから抽出した64個の口周りランドマーク座標を用いる軽量フレームワーク「BioLip」を提示しています。
本手法は、データ依存のパターンではなく物理的な妥当性に結び付けることで、アーティファクトベースの手法よりも普遍的な検出につながることを目指しています。

要旨: 現在のリップシンク・ディープフェイク検出器は、ピクセルレベルのアーティファクトまたは音声と映像の対応関係に依存しており、これらの手がかりは普遍的な物理法則ではなくデータ依存のパターンを符号化しているため、言語をまたいだ汎化に失敗します。私たちは、より根本的な原理を特定します。それは、生成モデルが真正な口唇・口腔の発話（orofacial articulation）のバイオメカニクス的制約を強制しないことであり、その結果として、時間的なリップの分散が測定可能なほど高まる――私たちが「temporal lip jitter（時間的リップ・ジャッタ）」と呼ぶ信号――が現れるというものです。この信号は、話者の言語、民族、録音条件を問わず経験的に一貫しています。この原理を、MediaPipeから抽出した周口（perioral）の64のランドマーク座標に基づいて動作する軽量フレームワークであるBioLipによって実装します。