要旨: 本論文は、野外における感情行動分析(ABAW)競技会第10回の結果を提示します。フレームごとの顔の感情理解タスク(フレームごとの表情認識、価性-覚醒推定、アクションユニット検出)には、事前学習済みのEfficientNetベースの感情認識モデルを用いた顔埋め込み抽出に基づく高速アプローチを提案します。後者のモデルの自信度が閾値を超える場合、その予測を用います。そうでない場合、埋め込みをAffWild2データセットで訓練された単純な多層パーセプトロンに入力します。推定されたクラスレベルのスコアは、フレームごとの予測におけるノイズを軽減するため、固定サイズのスライディングウィンドウで平滑化されます。細粒度の暴力検出タスクのために、フレーム埋め込みの事前学習済みアーキテクチャと、それらを映像分類へ集約する方法を検討します。ABAWチャレンジの4つのタスクにおける実験結果は、提案手法が既存のベースラインを大幅に上回る検証指標を示すことを示しています。
HSEmotionチームがABAW-10コンペティションに参加: 顔表情認識、快-不快と覚醒の推定、アクションユニット検出、細粒度暴力分類
arXiv cs.AI / 2026/3/16
💬 オピニオンModels & Research
要点
- 本論文は、第10回ABAWコンペティションにおけるフレーム単位の顔表情認識、快-不快と覚醒の推定、アクションユニット検出、および細粒度暴力分類の結果を報告している。
- Aff-Wild2埋め込みで訓練された単純なMLPにフォールバックするか、モデルの予測を信用するかを決定する閾値を設置する、EfficientNetベースの事前学習済み感情認識モデルを用いた顔の埋め込み抽出による高速アプローチを提案している。
- 推定されたクラススコアは、フレームごとの予測のノイズを緩和するためにスライディングウィンドウで平滑化される。
- 暴力検知タスクについて、事前学習済みフレーム埋め込みアーキテクチャと集約手法をいくつか評価し、ABAWの4つのタスクで既存のベースラインを大幅に上回る改善を示している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning