対象物の指示に基づく視線スキャンパス予測：知覚強化ビジョン・ランゲージ・モデル

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

共有:

要点

この論文は、参照表現（文章）で指定された対象物について、人が視覚シーン内で探索するときの注意のスキャンパスを予測する「Object Referring-guided Scanpath Prediction（ORSP）」を扱います。
ScanVLAというモデルを提案し、入力画像と参照テキストから、視覚と言語の表現を整合させて抽出・融合するためにビジョン・ランゲージ・モデル（VLM）を活用します。
細かな位置情報の精度を高めるために、過去の注視点の位置を入力として次の注視点をより妥当に予測する「History Enhanced Scanpath Decoder（HESD）」を導入します。
さらに補助モジュールとして凍結したSegmentation LoRAを組み込み、参照対象の局所化をより正確にしつつ、大きな追加計算コストや時間コストを増やさないように工夫しています。
実験により、ScanVLAは「対象物を参照する」設定において既存のスキャンパス予測手法を大きく上回ることが示されています。

Abstract

オブジェクト参照誘導スキャンパス予測（ORSP）は、視覚シーン内で特定の対象物を探す際に、対象物を記述する言語的説明に基づいて、人間の注意のスキャンパスを予測することを目的とします。マルチモーダル情報の融合はORSPの重要なポイントです。そこで本研究では、新しいモデルであるScanVLAを提案します。まず、入力画像と参照表現から、固有に整合した視覚的特徴表現と言語的特徴表現を抽出・融合するために、Vision-Language Model（VLM）を活用します。次に、ScanVLAが微細な位置情報を知覚する能力を高めるために、歴史強化スキャンパスデコーダ（History Enhanced Scanpath Decoder: HESD）を提案します。このHESDは、過去の注視点の位置情報を入力として直接受け取り、現在の注視点に対してより合理的な位置を予測できるようにします。さらに、補助コンポーネントとして凍結したSegmentation LoRAを採用し、参照された対象物をより正確に局在化することを支援します。これにより、大規模な追加計算や時間コストを発生させることなく、スキャンパス予測タスクの性能が向上します。広範な実験結果により、ScanVLAは対象物の参照における既存のスキャンパス予測手法に比べて大幅に高い性能を示せることが実証されています。