要旨: 人間の眼球追跡データから推定される経験的な注視(フィクセーション)密度と空間分布は、サリiencyベンチマークの基盤である。これらは、ベンチマークの結論、リーダーボード順位、失敗事例(failure case)分析、そして人間の視覚行動に関する科学的主張を直接的に左右する。しかし、標準的な推定手法である固定帯域幅の等方性ガウスKDEは、数十年にわたりほとんど変わっていない。これは今まで以上に重要である。というのも、領域がサンプルレベル評価(失敗事例分析、逆ベンチマーク、画像ごとのモデル比較)へと移行するにつれ、信頼できる画像ごとの密度推定が決定的になるからだ。本研究では、Abramsonの方法に基づく適応帯域幅KDE、中心バイアス成分、そして一様成分を組み合わせた、原理に基づく混合モデルを提案する。さらに、最先端のサリiencyモデルも組み込むことで、観察者間の一貫性の異なる空間的・意味的タイプを捉え、画像ごとにすべてのパラメータを、被験者を1人ずつ除外するleave-one-subject-out交差検証により最適化する。提案手法は、複数のベンチマークにわたって観察者間の一貫性推定を大幅に向上させる。画像ごとの利得の中央値は対数尤度で5-15%、AUCで最大2パーセンテージポイントである。特に影響が大きい画像――まさに失敗事例分析に最も関連する画像――では、改善が25%を超える。さらに、我々はこれらの改善された推定値を活用して、最先端のサリiencyモデルの残存する失敗事例を特定し分析し、その結果として、モデル改善のための大きな余地(headroom)がまだ残っていることを示す。より広く言えば、本研究の知見は、経験的な注視密度を固定した真値(ground truth)として扱うのではなく、より良い手法によって改善され続ける、発展する推定値として扱うべきだということを強調している。
天井を引き上げる:注視(サリエンシー)ベンチマークのためのより良い実測注視密度推定
arXiv cs.CV / 2026/5/6
📰 ニュースModels & Research
要点
- 実測の注視密度マップはサリエンシー・ベンチマークの基盤であり、リーダーボード結果や人間の視覚的注意に関する科学的主張にまで直接影響する一方、一般に用いられるKDE推定法は長年ほぼ変わっていない。
- 本論文では、適応バンド幅KDE(Abramsonの方法)、中心バイアス成分と一様成分、さらに最先端のサリエンシーモデルを組み合わせた混合モデルを提案し、各画像ごとにleave-one-subject-outの交差検証で全パラメータを最適化する。
- 複数のベンチマークで、注視間一致(interobserver consistency)が改善し、中央値で画像ごとの対数尤度が5–15%向上、AUCが最大2ポイント改善することを示す。
- 改善が特に大きいのは失敗ケース分析に直結する画像で、25%以上の改善が見られる。
- 改良後の推定を用いて最先端サリエンシーモデルの残る失敗ケースを特定・分析し、モデル改善の余地がなお大きいことを示唆する。



