SGAP-Gaze：シーングリッド注意に基づくドライバー視線推定ネットワーク

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本記事は、ドライバーの顔情報に加えて交通シーンの文脈を明示的に取り込むことで視線の推定精度を高める、ポイント・オブ・ガゼ（PoG）推定ネットワーク「SGAP-Gaze」を提案しています。
連動したドライバーの顔画像と交通シーン画像を提供するベンチマークデータセット「Urban Driving-Face Scene Gaze（UD-FSG）」を新たに導入し、シーンを意識した視線学習と評価を可能にしています。
SGAP-Gazeは、顔の複数モダリティ（顔・目・虹彩）から視線意図ベクトルを統合し、Transformerベースの注意機構でシーンの空間グリッド上に注意スコアを算出してPoGを得ます。
実験ではUD-FSGで平均ピクセル誤差104.73、LBWで63.48を達成し、既存の最先端ドライバー視線推定モデルに対して平均ピクセル誤差を23.5%削減したと報告されています。
空間的な誤差分布の分析では、ドライバーの注意を把握する上で重要だが出現頻度が低いシーン外周領域においても、SGAP-Gazeが既存手法より一貫して低い誤差を示しています。

Abstract

ドライバーの視線推定は、周囲の交通に対する運転者の状況認識（situational awareness）を理解するために不可欠である。既存の視線推定モデルは、運転者の顔の情報を用いて注視点（Point-of-Gaze, PoG）または3D視線方向ベクトルを予測する。そこで本研究では、同期された運転者の顔画像と交通シーン画像からなるベンチマークデータセット「Urban Driving-Face Scene Gaze（UD-FSG）」を提案する。シーン画像は周囲の交通についての手がかりを提供し、顔画像とともに視線推定モデルの改善に役立つ。本研究では、シーン画像を視線推定のモデリングに明示的に組み込む、シーン・グリッド注意に基づく注視点推定ネットワーク「SGAP-Gaze」を提案する。これは、UD-FSGデータセットで学習・評価される。視線推定ネットワークは、運転者の顔、眼、虹彩、およびシーンの文脈情報を統合する。まず、顔の各モダリティから抽出した特徴を融合して視線意図ベクトルを形成する。次に、Transformerベースの注意機構を用いて顔とシーン画像の特徴を融合し、空間シーングリッド上で注意スコアを計算することでPoGを得る。提案するSGAP-Gazeモデルは、UD-FSGデータセットで平均画素誤差104.73、LBWデータセットで63.48を達成し、最先端のドライバー視線推定モデルと比べて平均画素誤差を23.5%削減する。空間画素分布の解析により、SGAP-Gazeは、シーンの外側領域を含むあらゆる空間範囲において、既存手法よりも一貫して低い平均画素誤差を達成する。外側領域は稀であるが、運転者の注意を理解する上で重要である。これらの結果は、現実の運転環境における頑健なドライバーPoG推定モデルのために、マルチモーダルな視線手がかりとシーン認識に基づく注意を統合することの有効性を示している。