注視(Gaze)正則化されたVLMによる自己視点行動理解
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己視点行動理解のために、視線情報(注視とサッカード)をVision Language Models(VLM)へ注入する、視線正則化(gaze-regularized)付きトレーニング枠組みを提案する。
- 視線に基づくクエリと、視線正則化の仕組みを用いることで、モデルの注意が視覚のみの入力に依存するのではなく、人間の注意パターンに整合するようにする。
- 著者らは、視線データをVLMのアーキテクチャに組み込む複数の戦略を比較するため、広範な実験を実施する。
- 結果として、視線情報を用いないベースラインモデルに比べて意味スコアが約13%向上し、詳細な行動記述により将来の出来事予測をより良く可能にする。
- 本研究は、将来の行動に対する頑健な理解が求められる応用において、VLMの予測能力を高めるために人間の視線信号を活用するための基盤として位置付けられる。

