シーンからオブジェクトへ:テキスト誘導デュアル・ゲイズ予測

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の運転者注視(ドライバーアテンション)データセットがオブジェクト単位の注視アノテーションを欠いているため、テキストに基づく認知モデリングが難しく、結果としてテキストと視覚の分離や視覚バイアスによる幻覚が起きやすいと指摘しています。
  • この課題に対処するため、論文ではG-W3DAというオブジェクト単位の運転者注視データセットを提案し、多モーダル大規模言語モデルとSAM3を組み合わせて、シーン単位のヒートマップをオブジェクト単位のマスクへ変換することで、厳密なクロスバリデーションによりアノテーションの幻覚を抑えるとしています。
  • さらに、DualGaze-VLMというデュアル分岐のアーキテクチャを提案し、セマンティッククエリの隠れ状態とCondition-Aware SE-Gateを用いて視覚特徴を動的に変調し、意図に基づく正確な空間アンカー付けを実現すると述べています。
  • W3DAベンチマークでの実験では、DualGaze-VLMが既存のSOTAより空間整合性が一貫して向上し、安全に関わる重要シナリオでSimilarity(SIM)が最大17.8%改善したと報告しています。
  • 「ビジュアル・チューリングテスト」により、生成されたアテンションヒートマップが人間評価者の88.22%に“本物”として知覚されることが示され、合理的な認知的プライオリを生成できる可能性を示しています。