PASTA:弱教師ありターゲットおよび異常セグメンテーションのためのビジョントランスフォーマによるパッチ集約

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PASTAは、鋼くずリサイクルや除草などの未見異常を扱う産業・農業向けに、弱い画像レベルの教師(weak image-level supervision)でターゲットと異常をセグメンテーションする新しいパイプラインを提案している。
  • 観察シーンと通常(nominal)参照をViT(self-supervised Vision Transformer)の特徴空間で分布比較し、ターゲット/異常を同定することで、厳密な画素注釈を前提としない点が特徴だ。
  • Segment Anything Model 3(SAM 3)のセマンティックなテキストプロンプトを用いたゼロショットのオブジェクトセグメンテーションによって、ガイド付きでピクセルレベルの領域推定を行う。
  • 評価では独自の鋼くずリサイクルデータセットとプラントデータセットで、学習時間を75.8%削減しつつ、ターゲットは最大88.3% IoU、異常は最大63.5% IoUと高いセグメンテーション性能を示した。

Abstract

整理されていない環境における未見の異常を検出することは、材料リサイクルや除草といった産業・農業用途において重大な課題である。既存の知覚システムは、網羅的に注釈されたデータセットへの依存により、これらの領域に特有の厳格な運用要件、すなわちリアルタイム処理、画素レベルのセグメンテーション精度、頑健な精度を満たせないことが多い。これらの制約に対処するため、弱い画像レベルの教師信号と呼ばれる弱教師ありのパイプラインを提案し、オブジェクトのセグメンテーションと分類を行う。「対象物および異常のためのパッチ集約(Patch Aggregation for Segmentation of Targets and Anomalies)」(PASTA)である。PASTAは、観測されたシーンと公称(ノミナル)な参照を比較することで、自主教師ありのVision Transformer(ViT)特徴空間における分布解析により、Target(対象物)とAnomaly(異常)オブジェクトを同定する。我々のパイプラインは、ゼロショットのオブジェクトセグメンテーションを導くために、Segment Anything Model 3(SAM 3)による意味的なテキストプロンプトを利用する。 独自の製鋼所スクラップ・リサイクルデータセットとプラントデータセットでの評価により、本手法はドメイン固有のベースラインに対して学習時間を75.8%削減できることを示す。ドメインに依存しない一方で、本手法は産業・農業領域におけるTarget(最大88.3% IoU)およびAnomaly(最大63.5% IoU)のセグメンテーション性能で優れた結果を達成する。