要旨: 顔ビデオからのエンゲージメント推定は、顔の証拠がしばしば不完全であり、ラベル付きデータが限られており、エンゲージメントの注釈が主観的であるため、依然として困難である。そこで本研究では、パイプラインの3つの段階(前処理、モデル適応、目的関数設計)でタスクに関連する事前知識(prior)を注入する、事前知識ガイド型フレームワークPriorNetを提案する。PriorNetは、顔検出の失敗を明示的な「ゼロフレーム」プレースホルダに変換することで、欠けた顔イベントが入力系列において表現され続けるようにし、凍結した自己教師ありビデオ表情知覚器(SVFAP)バックボーンを、事前知識ガイド型の低ランク適応モジュール(Prior-LoRA)によってパラメータ効率よく専門化するように適応させ、さらにハードラベルの教師あり監督のもとで、ディリクレ事証(Dirichlet-evidential)かつ不確実性で重み付けされた目的関数で学習する。PriorNetを、EngageNet、DAiSEE、DREAMS、PAFEに対して各データセットのネイティブな評価プロトコルで評価する。これらのベンチマークにおいて、PriorNetは各データセットの評価枠組み内で最も強い(掲載されている)事前知識リファレンスに対して改善を示す。また、EngageNetおよびDAiSEEでのコンポーネントのアブレーションにより、その向上は前処理、適応、そして目的関数レベルの事前知識が相補的に寄与したことによるものであることが示される。これらの結果は、本研究で調査したベンチマーク条件の下で、顔ビデオのエンゲージメント推定において有用な設計原理として、明示的な事前知識の注入を支持するものとなる。
PriorNet:顔動画からの事前知識ガイドによるエンゲージメント推定
arXiv cs.CV / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PriorNetは、顔動画からのエンゲージメント推定が抱える不完全な顔情報の問題や、主観的かつ限られたラベルの課題に対処します。
- 本フレームワークは、顔検出失敗を扱う工夫(ゼロフレームのプレースホルダ)などを含め、前処理・モデル適応・目的関数設計の3段階でタスクに関係する事前知識を明示的に注入します。
- 凍結した自己教師ありの動画顔表情バックボーン(SVFAP)を、Prior-guided Low-Rank Adaptation(Prior-LoRA)でパラメータ効率よく特化させます。
- 学習では、ハードラベル監督のもとでDirichletによるエビデンシャルかつ不確実性で重み付けした目的関数を用い、不確実性をより適切に扱います。
- EngageNet、DAiSEE、DREAMS、PAFEでの実験では、各データセットの評価枠組みで最も強い既存の事前知識参照を一貫して上回り、アブレーションから前処理・適応・目的レベルの事前知識が相補的に寄与していることが示されます。



