窓の外まで見渡す:トレーニング不要のオープン語彙セマンティックセグメンテーションのためのグローバル・ローカル整合CLIP

arXiv cs.CV / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、スライディングウィンドウ推論を用いるトレーニング不要のオープン語彙セマンティックセグメンテーション手法における限界を指摘する。独立したウィンドウ処理により、ウィンドウ間で意味の不整合が生じる。
  • 提案手法のGlobal-Local Aligned CLIP(GLA-CLIP)は、CLIPのキー・バリュートークンを拡張し、局所のウィンドウトークンに注意を制限するのではなく、全ウィンドウ間で情報交換できるようにする。
  • 著者らは「ウィンドウバイアス」問題に対処する。これは、外側のウィンドウトークンがより注意を受けにくいという問題であり、全ウィンドウからクエリに強く関連するトークンを集約して、統一された意味的参照として機能するプロキシアンカーを導入する。
  • 小さな物体への頑健性を高めるために、GLA-CLIPは物体スケールに基づいて注意をスケーリングし、閾値処理する動的正規化スキームを追加する。
  • 本手法は既存アプローチへのプラグイン強化として機能し、受容野を拡張できることが報告されている。さらに、公開コードと広範な実験によって裏付けられている。

Abstract

スライディングウィンドウ推論戦略は、近年の学習不要型オープン語彙セマンティックセグメンテーション手法で一般的に採用されており、高解像度画像の処理におけるCLIPの限界を克服するために用いられます。しかし、このアプローチには新たな課題があります。各ウィンドウが独立に処理されるため、ウィンドウ間で意味の不一致(セマンティックな不整合)が生じるのです。そこで本研究では、ウィンドウ間で包括的な情報交換を可能にする枠組みである Global-Local Aligned CLIP~(GLA-CLIP) を提案します。個々のウィンドウ内のトークンに注意を制限するのではなく、GLA-CLIP はキー・バリュー(key-value)トークンを拡張し、すべてのウィンドウからの文脈的手がかりを取り込むようにします。それでもなお、ウィンドウバイアスが観測されます。すなわち、外側ウィンドウのトークンは注意を受けにくいのです。クエリ特徴は内側ウィンドウのパッチ同士の相互作用によって生成されるため、局所文脈を越えた意味的な根拠(semantic grounding)を欠いてしまうからです。これを緩和するために、各ウィンドウから与えられたクエリに対して高い類似性を持つトークンを集約して構築したプロキシ・アンカー(proxy anchor)を導入します。これにより、内側および外側ウィンドウのパッチ間での類似度を測るための統一された意味的参照が得られます。さらに、動的正規化スキームも提案します。小物体の状況に対処するために、注意マップを対象物のスケールに応じて動的にスケーリングおよび閾値処理し、注意の強さを調整します。加えて、GLA-CLIP は既存の手法に組み込むことができ、その受容野を広げることも可能です。大規模な実験により、学習不要型のオープン語彙セマンティックセグメンテーション性能を向上させる上での GLA-CLIP の有効性が検証されます。コードは https://github.com/2btlFe/GLA-CLIP で公開されています。