ノイズの向こう側へ：注視推定におけるドメイン汎化の改善

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

共有:

要点

この論文は、正確な注視アノテーションを得ることが難しいことに由来するラベルノイズが、注視推定モデルのドメイン汎化性能をどのように損なうかを調査します。
それに対し、See-Through-Noise（SeeTN）フレームワークを提案し、ラベルノイズを軽減するという新しい観点から汎化を改善します。
SeeTNは、プロトタイプに基づく変換によって、注視特徴と連続ラベルの間のトポロジー（位相構造）の整合を保つセマンティック埋め込み空間を構築し、さらに特徴–ラベルの親和性の一貫性でノイズを含むサンプルとクリーンなサンプルを区別します。
さらにセマンティック・マニフォールド上で新しい親和性正則化を導入し、クリーンなサンプルからノイズを含むサンプルへ注視に関する情報を伝達します。
大規模な実験により、SeeTNはソースドメインのラベルノイズによる悪影響を抑えつつ、ソースドメイン精度を犠牲にせずにクロスドメイン汎化を向上させることが示され、汎化注視推定ではノイズを明示的に扱う重要性が強調されています。

要旨: 一般化可能な注視推定（gaze estimation）手法は、現実のアプリケーションにおいて重要であることから、ますます注目を集めており、大きな進展を遂げてきました。しかし、それらはしばしば、正確な注視アノテーションを取得することの本質的な難しさに起因するラベルノイズの影響が、モデルの一般化性能に与える効果を見落としています。本論文では、注視推定における一般化に対するラベルノイズの負の影響を包括的に調査することを、私たちが初めて行います。さらに、ラベルノイズを緩和するという新しい観点から一般化を改善する、新規の解決策である See-Through-Noise（SeeTN）フレームワークを提案します。具体的には、注視特徴と連続ラベルの間で一貫した位相構造を保持するために、プロトタイプベースの変換によって意味埋め込み空間を構築することを提案します。次に、特徴とラベルの親和性の一貫性を測定して、ノイズのあるサンプルとクリーンなサンプルを区別し、意味マニフォールド上での新しい親和性正則化を導入して、クリーンなサンプルからノイズのあるサンプルへ注視に関する情報を伝達します。提案する SeeTN は、意味構造の整合を促進し、ドメイン不変な注視関係を強制することで、ラベルノイズに対する頑健性を高めます。広範な実験により、私たちの SeeTN がソースドメインのノイズによる悪影響を効果的に軽減し、ソースドメインでの精度を損なうことなく、優れたクロスドメイン一般化をもたらすことが示されます。また、一般化された注視推定においてノイズを明示的に扱うことの重要性が強調されます。