ActFER：アクティブ・ツール拡張ビジュアル推論によるエージェント的表情認識

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、受動的なラベル予測から能動的な視覚的証拠の獲得と推論へと転換する、表情認識のためのエージェント型マルチモーダルフレームワークActFERを提案する。
ActFERは、顔検出とアラインメントのためのツールを動的に用い、情報量の多い局所領域へズームし、顔のアクションユニット（AU）と感情について、視覚的なChain-of-Thoughtアプローチによってマルチモーダル推論を行う。
エージェント的FER向けに設計された強化学習アルゴリズムUC-GRPOを提案する。ここでは、AUに基づく検証可能なリワード、クエリ条件付きのコントラスト的ユーティリティ推定による動的なクレジット割り当て、ノイズの多いユーティリティを抑えるための感情に応じたEMAキャリブレーションを組み込む。
実験により、UC-GRPOで学習したActFERが、受動的なMLLMベースのFERベースラインよりも高い性能を示し、AU予測精度も向上することが報告されている。これは、「いつ・どこを検査するか」を学習可能にすることの有効性を示している。