窓の外まで見渡す:トレーニング不要のオープン語彙セマンティックセグメンテーションのためのグローバル・ローカル整合CLIP
arXiv cs.CV / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、スライディングウィンドウ推論を用いるトレーニング不要のオープン語彙セマンティックセグメンテーション手法における限界を指摘する。独立したウィンドウ処理により、ウィンドウ間で意味の不整合が生じる。
- 提案手法のGlobal-Local Aligned CLIP(GLA-CLIP)は、CLIPのキー・バリュートークンを拡張し、局所のウィンドウトークンに注意を制限するのではなく、全ウィンドウ間で情報交換できるようにする。
- 著者らは「ウィンドウバイアス」問題に対処する。これは、外側のウィンドウトークンがより注意を受けにくいという問題であり、全ウィンドウからクエリに強く関連するトークンを集約して、統一された意味的参照として機能するプロキシアンカーを導入する。
- 小さな物体への頑健性を高めるために、GLA-CLIPは物体スケールに基づいて注意をスケーリングし、閾値処理する動的正規化スキームを追加する。
- 本手法は既存アプローチへのプラグイン強化として機能し、受容野を拡張できることが報告されている。さらに、公開コードと広範な実験によって裏付けられている。