NeuroLip:イベント駆動型の時空間学習フレームワークによるクロスシーンの口唇動作ベース・ビジュアル話者認識

arXiv cs.AI / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、音声が使えない状況でも口唇の動きに基づくバイオメトリクスを用いる、クロスシーン対応のビジュアル話者認識向けフレームワーク「NeuroLip」を提案しています。
  • 外見依存の従来手法と異なり、NeuroLipは被験者固有の発話(口の)動作ダイナミクスの安定性を活かし、フレームベースのセンサで起きやすいモーションブラーやダイナミックレンジ不足をイベントベースカメラで抑える設計になっています。
  • 提案手法は、(1) 時間を考慮したボクセル符号化(適応的なイベント重み付け)、(2) 位置構造を考慮した空間エンハンサ(ノイズ抑制と垂直方向の運動情報の保持)、(3) イベント極性に埋め込まれた運動方向の手がかりを保つ極性整合正則化、の3要素で構成されています。
  • さらに著者らは、DVSpeakerというイベントベースの口唇動作データセットを公開し、50名の被験者を4つの視点・照明条件で収録しています。
  • 厳格なクロスシーン手順(単一条件で学習し、未見の視点・照明へ汎化して認識)により、未見視点で71%以上、低照度条件でほぼ76%の精度を示し、既存手法より少なくとも8.54%上回ったと報告しています。

要旨: 唇の動きに基づくビジュアル話者認識は、音声手がかりが利用できない場合でも有効性を維持できる、無音・ハンズフリー・行動駆動型のバイオメトリック解決策を提供します。外見に依存した表現に大きく依存する従来手法と比べて、唇の動きは、安定した発話(構音)パターンと筋の協調によって駆動される被験者固有の行動ダイナミクスを符号化し、環境変化に対して本質的な安定性をもたらします。しかし、こうした頑健で微細なダイナミクスを捉えることは、従来のフレームベースカメラでは、モーションブラーや低いダイナミックレンジのために困難です。唇の動きがもつ固有の安定性を活用し、これらのセンシング上の制限に対処するために、私たちはNeuroLipを提案します。NeuroLipは、厳格ではあるが実用的なクロスシーン・プロトコルの下で微細な唇ダイナミクスを捉えるイベントベースの枠組みです。トレーニングは単一の制御された条件で実施され、認識は未見の視点や照明条件へと汎化しなければなりません。NeuroLipは、1) イベントの重みを適応的に調整する時間対応型ボクセル符号化モジュール、2) 雑音を抑制しつつ、縦方向に構造化された動きの情報を保持することで識別的な行動パターンを増幅する構造対応型空間エンハンサー、3) イベントの極性に符号化された運動方向の手がかりを保持する極性整合性正則化メカニズム、を備えます。体系的な評価を可能にするために、私たちはDVSpeakerを導入します。DVSpeakerは、4つの異なる視点および照明シナリオの下で記録された50人の被験者から成る包括的なイベントベースの唇運動データセットです。大規模な実験により、NeuroLipはマッチしたシーンにおいてほぼ完全な精度を達成し、クロスシーンに対して頑健に汎化できることが示されます。未見の視点で71%以上、低照度条件でほぼ76%を達成し、代表的な既存手法に対して少なくとも8.54%上回っています。データセットおよびコードは https://github.com/JiuZeongit/NeuroLip で公開されています。