GMGaze:CLIPとマルチスケール・トランスフォーマーによるMoEベースの文脈対応型注視推定

arXiv cs.CV / 2026/5/4

📰 ニュースModels & Research

要点

  • この論文では、CNN系・トランスフォーマー系・CLIP系の既存手法の課題を踏まえた文脈対応型注視推定モデル「GMGaze」を提案しています。
  • GMGazeは、学習済みプロトタイプバンク(照明、背景、頭部姿勢、外観など)でCLIPのグローバル埋め込みを変調し、文脈バイアス付きのグローバル・トークンを生成する「セマンティック・プロトタイプ・コンディショニング」を用います。
  • 生成したグローバル・トークンとCLIPのパッチ・トークン、CNNトークンをトランスフォーマーの第1層で早期に統合融合し、後段融合で起きがちな情報損失を抑えます。
  • スパースMixture-of-Experts(MoE)モジュールを導入し、密なパラメータを一律に増やすのではなく条件に応じて計算量をスケールさせます。
  • 4つの公開ベンチマークでの実験では平均角度誤差の大幅な改善が報告され、クロスドメインの転移でも2つの標準ルートでSOTAを達成しています。