GMGaze：CLIPとマルチスケール・トランスフォーマーによるMoEベースの文脈対応型注視推定

arXiv cs.CV / 2026/5/4

📰 ニュースModels & Research

共有:

要点

この論文では、CNN系・トランスフォーマー系・CLIP系の既存手法の課題を踏まえた文脈対応型注視推定モデル「GMGaze」を提案しています。
GMGazeは、学習済みプロトタイプバンク（照明、背景、頭部姿勢、外観など）でCLIPのグローバル埋め込みを変調し、文脈バイアス付きのグローバル・トークンを生成する「セマンティック・プロトタイプ・コンディショニング」を用います。
生成したグローバル・トークンとCLIPのパッチ・トークン、CNNトークンをトランスフォーマーの第1層で早期に統合融合し、後段融合で起きがちな情報損失を抑えます。
スパースMixture-of-Experts（MoE）モジュールを導入し、密なパラメータを一律に増やすのではなく条件に応じて計算量をスケールさせます。
4つの公開ベンチマークでの実験では平均角度誤差の大幅な改善が報告され、クロスドメインの転移でも2つの標準ルートでSOTAを達成しています。

Anthropic News

日経XTECH

The Verge

Dev.to

Dev.to