視覚基盤モデルを蒸留して実現する、オンデバイスの眼球トラッキングの迅速な展開

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、デバイス間のハードウェア差や照明条件の変化があっても、AR/VR向けに正確なオンデバイス視線推定を迅速に導入するためのフレームワーク「DistillGaze」を提案する。
  • 特殊な近眼赤外(IR)イメージングに対する市販の視覚基盤モデルの重要な制約に対処するため、教師モデルをドメイン特化させる。教師モデルは、ラベル付きの合成データとラベルなしの実データの両方を用いた自己教師あり学習により構築する。
  • 次にDistillGazeは、教師のガイダンスに加えて自己学習を行うことで、合成から実環境へのドメインギャップを埋める軽量なオンデバイス学生モデルを学習する。
  • 2,000人以上の参加者を含む大規模なクラウドソースデータセット上で、DistillGazeは合成のみのベースラインと比べて中央値の視線誤差を58.62%削減しつつ、実時間展開可能な小規模モデル(256Kパラメータ)を維持する。