GMGaze:CLIPとマルチスケール・トランスフォーマーによるMoEベースの文脈対応型注視推定
arXiv cs.CV / 2026/5/4
📰 ニュースModels & Research
要点
- この論文では、CNN系・トランスフォーマー系・CLIP系の既存手法の課題を踏まえた文脈対応型注視推定モデル「GMGaze」を提案しています。
- GMGazeは、学習済みプロトタイプバンク(照明、背景、頭部姿勢、外観など)でCLIPのグローバル埋め込みを変調し、文脈バイアス付きのグローバル・トークンを生成する「セマンティック・プロトタイプ・コンディショニング」を用います。
- 生成したグローバル・トークンとCLIPのパッチ・トークン、CNNトークンをトランスフォーマーの第1層で早期に統合融合し、後段融合で起きがちな情報損失を抑えます。
- スパースMixture-of-Experts(MoE)モジュールを導入し、密なパラメータを一律に増やすのではなく条件に応じて計算量をスケールさせます。
- 4つの公開ベンチマークでの実験では平均角度誤差の大幅な改善が報告され、クロスドメインの転移でも2つの標準ルートでSOTAを達成しています。



