FB-CLIP: 前景-背景の分離による細粒度ゼロショット異常検知と局在化

arXiv cs.CV / 2026/3/23

💬 オピニオンModels & Research

共有:

要点

FB-CLIPは前景-背景の分離を導入し、背景の干渉を低減することで細粒度のゼロショット異常検知と局在化を可能にします。
テキストの手掛かりを、End-of-Text特徴量、グローバルにプーリングされた表現、アテンション重み付きトークン特徴を通じて強化し、より豊かな意味的ガイダンスを提供します。
視覚モジュールは、アイデンティティ、セマンティック、空間の三つの次元に沿って、背景抑制を伴うマルチビューのソフト分離を適用し、識別性を向上させます。
セマンティック一貫性正則化は、画像特徴を正常および異常のテキストプロトタイプに整合させ、意味的ギャップを拡大し、不確かな一致を抑制します。
実験は、複雑なシーンにおけるゼロショット設定下での異常検知と局在化が効果的であることを示しています。

要約: 細粒度異常検知は、産業および医療分野で極めて重要ですが、ラベル付き異常はしばしば乏しく、ゼロショット検出を困難にしています。CLIP のようなビジョン-言語モデルは有望な解決策を提供しますが、前景と背景の特徴の絡み合いと、粗いテキスト意味論には課題があります。我々は FB-CLIP を提案します。多重戦略のテキスト表現と前景背景分離を通じて異常局在化を強化するフレームワークです。テキストモダリティでは、End-of-Text 特徴、グローバルプール表現、注意重み付きトークン特徴を組み合わせ、より豊かな意味的手掛かりを提供します。視覚モダリティでは、アイデンティティ、意味論、空間の次元に沿ったマルチビューのソフト分離と背景抑制を組み合わせることで、干渉を低減し識別性を向上させます。Semantic Consistency Regularization（SCR）は、画像特徴を正常なテキストプロトタイプと異常なテキストプロトタイプに整合させ、曖昧な一致を抑制し、意味論的ギャップを拡大します。実験では、FB-CLIP は複雑な背景から異常を効果的に識別し、ゼロショット設定の下で高精度な細粒度異常検出と局在化を達成することを示しています。

マコトーん

note

Gemini（ジェミニ）はどこの会社が開発？Googleが提供する最新AIの特徴を徹底解説

note

【GPTs】NanoBanana2🍌 vs Perfect Replica Pro😙仕事中、常時マスク姿の同僚が水を飲むため一瞬マスクを外す決定的瞬間‼️

note

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

FB-CLIP: 前景-背景の分離による細粒度ゼロショット異常検知と局在化

要点

関連記事

マコトーん

Gemini（ジェミニ）はどこの会社が開発？Googleが提供する最新AIの特徴を徹底解説

【GPTs】NanoBanana2🍌 vs Perfect Replica Pro😙仕事中、常時マスク姿の同僚が水を飲むため一瞬マスクを外す決定的瞬間‼️

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer