注視(Gaze)正則化されたVLMによる自己視点行動理解

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己視点行動理解のために、視線情報(注視とサッカード)をVision Language Models(VLM)へ注入する、視線正則化(gaze-regularized)付きトレーニング枠組みを提案する。
  • 視線に基づくクエリと、視線正則化の仕組みを用いることで、モデルの注意が視覚のみの入力に依存するのではなく、人間の注意パターンに整合するようにする。
  • 著者らは、視線データをVLMのアーキテクチャに組み込む複数の戦略を比較するため、広範な実験を実施する。
  • 結果として、視線情報を用いないベースラインモデルに比べて意味スコアが約13%向上し、詳細な行動記述により将来の出来事予測をより良く可能にする。
  • 本研究は、将来の行動に対する頑健な理解が求められる応用において、VLMの予測能力を高めるために人間の視線信号を活用するための基盤として位置付けられる。

Abstract

注視(フィクセーション)やサッケードを含む視線推定は、人間の意図や将来の行動に関する重要な洞察を提供する。本研究では、エゴセンタリックな行動理解のために、視線を正則化したフレームワークを導入し、視覚言語モデル(VLM)を強化する。視覚データのみに依存し、視線情報を見落とす既存手法とは異なり、本アプローチは学習の際にVLMのアーキテクチャへ直接視線情報を組み込む。視線に基づくクエリを生成することで、モデルは視線によって強調された領域へ動的に焦点を合わせ、さらに視線正則化メカニズムにより、モデルの注意が人間の注意のパターンと一致することを保証する。視線を効果的にVLMへ統合する方法をよりよく理解するために、視線データを取り込むためのさまざまな戦略を検討する広範な実験を行った。これらの新たな工夫により、詳細な行動記述を伴って将来の出来事を予測できるようになる。実験結果は、視線データを活用しないベースラインモデルと比べて意味スコアが約13%改善することを示しており、本アプローチの有効性が明らかになった。本研究は、VLMにおける人間の視線の活用のための基盤を確立し、正確で頑健な将来出来事予測を必要とするアプリケーションにおいて、その予測能力を大幅に高める。

注視(Gaze)正則化されたVLMによる自己視点行動理解 | AI Navigate