PASTA: Vision Transformer Patch Aggregation for Weakly Supervised Target and Anomaly Segmentation
arXiv cs.CV / 4/14/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- PASTAは、鋼くずリサイクルや除草などの未見異常を扱う産業・農業向けに、弱い画像レベルの教師(weak image-level supervision)でターゲットと異常をセグメンテーションする新しいパイプラインを提案している。
- 観察シーンと通常(nominal)参照をViT(self-supervised Vision Transformer)の特徴空間で分布比較し、ターゲット/異常を同定することで、厳密な画素注釈を前提としない点が特徴だ。
- Segment Anything Model 3(SAM 3)のセマンティックなテキストプロンプトを用いたゼロショットのオブジェクトセグメンテーションによって、ガイド付きでピクセルレベルの領域推定を行う。
- 評価では独自の鋼くずリサイクルデータセットとプラントデータセットで、学習時間を75.8%削減しつつ、ターゲットは最大88.3% IoU、異常は最大63.5% IoUと高いセグメンテーション性能を示した。
Related Articles
langchain-anthropic==1.4.1
LangChain Releases

🚀 Anti-Gravity Meets Cloud AI: The Future of Effortless Development
Dev.to

Stop burning tokens on DOM noise: a Playwright MCP optimizer layer
Dev.to

Talk to Your Favorite Game Characters! Mantella Brings AI to Skyrim and Fallout 4 NPCs
Dev.to

AI Will Run Companies. Here's Why That Should Excite You, Not Scare You.
Dev.to