FB-CLIP: 前景-背景の分離による細粒度ゼロショット異常検知と局在化

arXiv cs.CV / 2026/3/23

💬 オピニオンModels & Research

要点

  • FB-CLIPは前景-背景の分離を導入し、背景の干渉を低減することで細粒度のゼロショット異常検知と局在化を可能にします。
  • テキストの手掛かりを、End-of-Text特徴量、グローバルにプーリングされた表現、アテンション重み付きトークン特徴を通じて強化し、より豊かな意味的ガイダンスを提供します。
  • 視覚モジュールは、アイデンティティ、セマンティック、空間の三つの次元に沿って、背景抑制を伴うマルチビューのソフト分離を適用し、識別性を向上させます。
  • セマンティック一貫性正則化は、画像特徴を正常および異常のテキストプロトタイプに整合させ、意味的ギャップを拡大し、不確かな一致を抑制します。
  • 実験は、複雑なシーンにおけるゼロショット設定下での異常検知と局在化が効果的であることを示しています。

要約: 細粒度異常検知は、産業および医療分野で極めて重要ですが、ラベル付き異常はしばしば乏しく、ゼロショット検出を困難にしています。CLIP のようなビジョン-言語モデルは有望な解決策を提供しますが、前景と背景の特徴の絡み合いと、粗いテキスト意味論には課題があります。我々は FB-CLIP を提案します。多重戦略のテキスト表現と前景背景分離を通じて異常局在化を強化するフレームワークです。テキストモダリティでは、End-of-Text 特徴、グローバルプール表現、注意重み付きトークン特徴を組み合わせ、より豊かな意味的手掛かりを提供します。視覚モダリティでは、アイデンティティ、意味論、空間の次元に沿ったマルチビューのソフト分離と背景抑制を組み合わせることで、干渉を低減し識別性を向上させます。Semantic Consistency Regularization(SCR)は、画像特徴を正常なテキストプロトタイプと異常なテキストプロトタイプに整合させ、曖昧な一致を抑制し、意味論的ギャップを拡大します。実験では、FB-CLIP は複雑な背景から異常を効果的に識別し、ゼロショット設定の下で高精度な細粒度異常検出と局在化を達成することを示しています。