十分に幾何学で足りるのか？ランドマークベースの注視推定の評価

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、外観ベースのCNNアプローチに対する軽量でより解釈可能な代替として、ランドマークベース（幾何学的）注視推定を評価する。外観ベースは高精度だが計算コストが高く、仕組みが分かりにくい。
3つの大規模データセット（Gaze360、ETH-XGaze、GazeGene）にまたがって、標準化されたランドマーク抽出・正規化パイプラインを提案し、そのうえで軽量な回帰器（XGBoost）と、2つのニューラルなランドマークベースモデル（ホリスティックMLPおよび両眼幾何学のサイアミーズMLP）を学習する。
結果として、ランドマークベース手法はドメイン内テストで十分に性能が出ない。理由として、ランドマーク検出器のノイズが学習データと評価データを劣化させている可能性が示唆される。
ドメインをまたぐ実験では、提案するランドマークベースMLPはResNet18のベースラインと同程度の汎化性能を示す。これは、疎な幾何学的特徴だけでも頑健な注視推定に必要な十分な信号を持ちうることを示している。
著者らはコードおよび生成したランドマークデータセットを公開し、このアプローチが、効率的で解釈可能かつプライバシーに配慮したエッジ展開を支えられると主張している。

要旨: 見た目（外観）に基づく注視推定（gaze estimation）は、頻繁に深層畳み込みニューラルネットワーク（CNN）に依存しています。これらのモデルは正確ですが、計算コストが高く、さらに「ブラックボックス」として振る舞うため、解釈可能性がほとんどありません。顔のランドマークに基づく幾何学的手法は軽量な代替手段ですが、その性能限界や汎化能力は、現代のベンチマークにおいて十分に調査されていません。本研究では、ランドマークベースの注視推定の包括的な評価を行います。3つの大規模データセット（Gaze360、ETH-XGaze、GazeGene）からランドマークを抽出・正規化するための標準化されたパイプラインを導入し、軽量な回帰モデルを学習します。具体的には、Extreme Gradient Boosted（XGBoost）木と、2つのニューラルアーキテクチャとして、全体（holistic）なマルチレイヤパーセプトロン（MLP）と、両眼の幾何を捉えるために設計されたサイアミーズMLPです。ランドマークベースのモデルは、同一ドメイン内での評価において低い性能を示すことがわかりました。これは、おそらくランドマーク検出器によってデータセットに導入されるノイズのためです。しかし、異ドメイン評価では、提案したMLPアーキテクチャが、ResNet18のベースラインと同等の汎化能力を示します。これらの知見は、疎な幾何学的特徴が頑健な注視推定に十分な情報を符号化していることを示唆しており、効率的で、解釈可能で、プライバシーに配慮したエッジ（端末）アプリケーションへの道を開きます。ソースコードおよび生成したランドマークベースのデータセットは https://github.com/daniele-agostinelli/LandmarkGaze.git で公開されています。