対象物の指示に基づく視線スキャンパス予測:知覚強化ビジョン・ランゲージ・モデル
arXiv cs.CV / 2026/4/23
📰 ニュースModels & Research
要点
- この論文は、参照表現(文章)で指定された対象物について、人が視覚シーン内で探索するときの注意のスキャンパスを予測する「Object Referring-guided Scanpath Prediction(ORSP)」を扱います。
- ScanVLAというモデルを提案し、入力画像と参照テキストから、視覚と言語の表現を整合させて抽出・融合するためにビジョン・ランゲージ・モデル(VLM)を活用します。
- 細かな位置情報の精度を高めるために、過去の注視点の位置を入力として次の注視点をより妥当に予測する「History Enhanced Scanpath Decoder(HESD)」を導入します。
- さらに補助モジュールとして凍結したSegmentation LoRAを組み込み、参照対象の局所化をより正確にしつつ、大きな追加計算コストや時間コストを増やさないように工夫しています。
- 実験により、ScanVLAは「対象物を参照する」設定において既存のスキャンパス予測手法を大きく上回ることが示されています。




