自己回帰的拡散による動画のインフィニット・ゲイズ生成

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の動画視線予測手法の限界に取り組む。これらはしばしば細かな時系列ダイナミクスを失い、短いウィンドウ（約3〜5秒）に制限されている。
視線の「無限ホライズン（infinite-horizon）」な生（raw）視線生成を、任意に長い動画に対して可能にする自己回帰的拡散フレームワークを提案する。これにより、高い解像度のタイムスタンプを伴う連続的な空間座標を生成できる。
提案手法は、顕著性（サリエンシー）を考慮した視覚潜在空間に基づいて生成を条件付けし、視線軌跡をシーンに関連する視覚的要因と結び付ける。
実験（定量および定性）により、従来手法と比べて長距離の時空間精度が向上し、より現実的な視線軌跡が得られることが報告されている。
本研究は、人間の視線を粗い空間的な抽象としてではなく、時間とともに変化する軌跡としてモデル化することで、生成的な長距離マルチモーダルなシーン理解を前進させる。

要旨: 動画における人間の視線を予測することは、シーン理解やマルチモーダルなインタラクションを発展させるうえで基本となる。従来のサリシティマップは空間的な確率分布を提供し、走査経路（スキャンパス）は順序立てられた注視を提供するものの、これらの抽象化はしばしば、生の視線に含まれる微細な時間的ダイナミクスを潰してしまう。さらに、既存のモデルは一般に短期のウィンドウ（ $\approx$ 3-5s）に制約されており、現実世界のコンテンツに内在する長距離の行動的依存関係を捉えられていない。そこで本研究では、任意の長さの動画に対して、無限ホライズンの生の視線予測を行う生成フレームワークを提案する。自己回帰型拡散モデルを活用することで、連続的な空間座標と高解像度のタイムスタンプによって特徴づけられる視線軌跡を合成する。本モデルは、サリシティを考慮した視覚潜在空間に条件付けられる。定量的および定性的な評価により、提案手法が長距離の時空間精度と軌跡の現実らしさにおいて、既存の手法を大幅に上回ることを示す。