AI Navigate

ランドマークベースのウェブカメラ視線追跡のためのデプロイメント志向のセッション単位メタキャリブレーション

arXiv cs.CV / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

要点

  • EMC-Gazeは、共有幾何エンコーダと各セッションごとの小規模な較正セットを用いてセッション単位の適応を可能にする軽量なランドマーク専用の視線追跡法であり、リッジ較正器を介して識別性を獲得するメタ訓練を備える。
  • E(3)-等変なランドマーク-グラフエンコーダ、局所眼幾何、両眼の強調、補助的な3D視線監督、微分可能な閉形式リッジ較正器を活用し、二視点正準化一貫性損失を介して姿勢の漏洩を抑制しつつ頑健な性能を達成する。
  • 評価では、9点キャリブレーション後の注視スタイルデータで5.79 ± 1.81°RMSEを達成(Elastic Netの6.68 ± 2.34°を上回る)し、静止頭部クエリではより大きな改善を示す。被験者ホールドアウト設定でも優位性を維持し、少数ショットのキャリブレーションでMPIIFaceGazeにも良好に対応する。
  • エクスポートされた眼球に焦点を当てたエンコーダは944,423パラメータを有し(ONNXでは約4.76MB)、Chromium上のONNX Runtime Webを用いた較正済みブラウザ予測をサンプルあたり約12.58 ms(平均/中央値/90パーセンタイル)で実現する。デプロイメントの実用性とデプロイメント志向の運用ポイントを示す。

要約: 実用的なウェブカメラ視線追跡は、誤差だけでなく、較正の負担、頭部の動きとセッションのドリフトへの堅牢性、実行時の負荷、ブラウザの使用といった制約にも左右される。したがって、画像の大規模バックボーン領域を前提とするのではなく、デプロイメント指向の運用点を対象とする。ランドマークベースの注視点推定をセッション単位の適応として位置づける: 共通の幾何学エンコーダが少数の較正セットから新しいセッションへ整合可能な埋め込みを生成する。Equivariant Meta-Calibrated Gaze (EMC-Gaze) を提示する。ランドマークのみを用いた軽量手法で、E(3)-等変のランドマーク-グラフエンコーダ、局所的な眼の幾何、双眼の強調、補助的な3D視線方向の監督、エピソディックなメタ学習を通じて微分可能な閉形式リッジ較正器を組み合わせる。ポーズ漏洩を抑制するため、二視点の正準化整合性損失を用いる。デプロイ済みの予測器は顔のランドマークのみを使用し、短い較正からセッションごとにリッジヘッドを適合させる。100 cm での固定視点型インタラクティブ評価を33セッションにわたり実施し、EMC-Gaze は 9点較正後の RMSE を 5.79 +/- 1.81 度、Elastic Net は 6.68 +/- 2.34 度だった。静止頭クエリでは利得がより大きくなる(2.92 +/- 0.75 度 vs. 4.45 +/- 0.30 度)。3つの被験者ホールドアウトを各 10 名ずつ用いた場合、EMC-Gaze は優位性を保持する(5.66 +/- 0.19 度 vs. 6.49 +/- 0.33 度)。MPIIFaceGaze での短いセッションごとの較正では、アイフォーカスモデルは 16ショット較正で 8.82 +/- 1.21 度に到達し、1ショットで Elastic Net と同等、3ショット以上でそれを上回る。エクスポートされたアイフォーカスエンコーダは 944,423 個のパラメータ、ONNX では 4.76 MB、Chromium 145 で ONNX Runtime Web を用いた場合、サンプルあたりの較正済みブラウザ予測を 12.58/12.58/12.90 ms(平均/中央値/p90)でサポートする。これらの結果は EMC-Gaze を較正に優しい運用点として位置づけるものであり、より重厚な外観ベースのシステムに対する普遍的な最先端の主張には当たらない。