自然なデータセット間分布シフト下における顔表情認識のためのテスト時適応の評価

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、自然なデータセット間分布シフトの下で、顔表情認識(FER)のテスト時適応(TTA)を評価し、合成的な劣化を超える実世界のドメイン変化に対処します。
  • データセット間のFER実験を実施し、収集プロトコルの違い、アノテーション基準、被験者属性が性能に与える影響を評価します。
  • 結果は、自然なシフト下でTTAはFER性能を最大で11.34%向上させることができ、ターゲット分布がクリーンな場合にはTENTやSARなどのエントロピー最小化法が最も良い性能を示します。
  • 条件に応じて、異なるTTAファミリーが異なる状況で優れた性能を示します。分布距離が大きい場合にはT3Aのようなプロトタイプ調整法、ターゲットがノイズを多く含む場合にはSHOTのような特徴アライメント法が最大の改善をもたらします。全体的な有効性は、分布距離とシフトの深刻度に依存します。

要旨: 深層学習モデルは、自然な分布シフトの下でしばしば苦戦します。これは現実世界の展開における一般的な課題です。Test-Time Adaptation (TTA) は、推論時にラベル付きのソースデータなしでモデルを適応させることによって、これに対処します。私たちは、FERの自然ドメインシフト下でのTTA手法の初の評価を提示し、広く使用されているFERデータセットを用いたデータセット間の実験を行います。これにより、合成的な破損を超えて、収集プロトコル、注釈基準、人口統計の違いによって引き起こされる実世界のシフトを検討します。結果は、自然シフト下でのFERの性能を最大11.34%向上させることがTTAによって可能であることを示します。エントロピー最小化手法としてTENTやSARは、ターゲット分布がクリーンな場合に最も効果的です。これに対して、T3Aのようなプロトタイプ調整手法は、より大きな分布距離の状況下で卓越します。最後に、SHOTのような特徴整合手法は、ターゲット分布がソースよりもノイズが多い場合に最大の利益をもたらします。我々のデータセット間分析は、TTAの有効性が分布距離とドメイン間の自然シフトの重大さによって規定されることを示しています。