開放領域におけるリアルタイム・外観ベース視線推定

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、顔用ウェアラブルや照明条件の悪い環境など、制約のない現実世界のシナリオに外観ベースの視線推定を適用した際に大きな一般化ギャップが生じることを特定する。
このギャップの要因として、主に2つの問題を挙げている。すなわち、学習時の画像多様性の不足、そして特にピッチ軸においてデータセット間でラベルの忠実度が一貫しないことだ。
著者らは、（合成の眼鏡／マスクや照明の変化など）拡張された画像マニフォールド・アンサンブルを用い、さらにマルチタスク学習を組み合わせることで、追加の人手による注釈なしに一般化性能を改善する頑健な枠組みを提案する。
マルチタスクの定式化は、離散化された視線分類、マルチビューの教師ありコントラスト学習（SupCon）、および眼領域のセグメンテーションを統合し、異方的なデータセット間ラベルの逸脱を低減する。
難しい条件での頑健性に焦点を当てた新しいベンチマークデータセットを導入し、軽量なMobileNetベースのモデルにより、UniGaze-Hのパラメータの1%未満でモバイル上の高忠実・リアルタイムな視線トラッキングが可能であることを報告する。

要旨: 見た目（外観）ベースの注視推定（AGE）は、制約された状況において目覚ましい性能を達成してきました。しかし本稿では、特に顔用ウェアラブルや照明が不十分な状況を含む、実環境での実用的で制約のないシナリオにおいて、既存のAGEモデルがしばしば機能しないという重要な汎化ギャップを明らかにします。この失敗は、2つの主要因に起因すると考えます。すなわち、画像多様性の不足と、異なるデータセット間でのラベルの信頼性（整合性）の不一致、特にピッチ軸（pitch axis）に沿った不一致です。これらに対処するために、人手による追加の注釈データを必要とせずに汎化を強化する、頑健なAGEフレームワークを提案します。まず、眼鏡、マスク、さまざまな照明の合成を含む拡張技術のアンサンブルによって画像多様体を拡張します。次に、データセット間における異方的なラベル逸脱の影響を軽減するために、注視回帰をマルチタスク学習の問題として再定式化し、マルチビューの教師ありコントラスト学習（SupCon）、離散化したラベル分類、補助目的として眼領域のセグメンテーションを組み込みます。本アプローチを厳密に検証するために、困難な条件下で注視の頑健性を評価することを目的として新たなベンチマークデータセットを収集します。この観点は、既存の評価プロトコルではほとんど見過ごされてきました。 MobileNetベースの軽量モデルは、1%未満のパラメータ数でSOTA（最先端）のUniGaze-Hと競合する汎化性能を達成し、モバイルデバイス上で高精細なリアルタイム注視追跡を可能にします。