PASTA：弱教師ありターゲットおよび異常セグメンテーションのためのビジョントランスフォーマによるパッチ集約

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

PASTAは、鋼くずリサイクルや除草などの未見異常を扱う産業・農業向けに、弱い画像レベルの教師（weak image-level supervision）でターゲットと異常をセグメンテーションする新しいパイプラインを提案している。
観察シーンと通常（nominal）参照をViT（self-supervised Vision Transformer）の特徴空間で分布比較し、ターゲット／異常を同定することで、厳密な画素注釈を前提としない点が特徴だ。
Segment Anything Model 3（SAM 3）のセマンティックなテキストプロンプトを用いたゼロショットのオブジェクトセグメンテーションによって、ガイド付きでピクセルレベルの領域推定を行う。
評価では独自の鋼くずリサイクルデータセットとプラントデータセットで、学習時間を75.8%削減しつつ、ターゲットは最大88.3% IoU、異常は最大63.5% IoUと高いセグメンテーション性能を示した。

Abstract

整理されていない環境における未見の異常を検出することは、材料リサイクルや除草といった産業・農業用途において重大な課題である。既存の知覚システムは、網羅的に注釈されたデータセットへの依存により、これらの領域に特有の厳格な運用要件、すなわちリアルタイム処理、画素レベルのセグメンテーション精度、頑健な精度を満たせないことが多い。これらの制約に対処するため、弱い画像レベルの教師信号と呼ばれる弱教師ありのパイプラインを提案し、オブジェクトのセグメンテーションと分類を行う。「対象物および異常のためのパッチ集約（Patch Aggregation for Segmentation of Targets and Anomalies）」（PASTA）である。PASTAは、観測されたシーンと公称（ノミナル）な参照を比較することで、自主教師ありのVision Transformer（ViT）特徴空間における分布解析により、Target（対象物）とAnomaly（異常）オブジェクトを同定する。我々のパイプラインは、ゼロショットのオブジェクトセグメンテーションを導くために、Segment Anything Model 3（SAM 3）による意味的なテキストプロンプトを利用する。独自の製鋼所スクラップ・リサイクルデータセットとプラントデータセットでの評価により、本手法はドメイン固有のベースラインに対して学習時間を75.8%削減できることを示す。ドメインに依存しない一方で、本手法は産業・農業領域におけるTarget（最大88.3% IoU）およびAnomaly（最大63.5% IoU）のセグメンテーション性能で優れた結果を達成する。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

PASTA：弱教師ありターゲットおよび異常セグメンテーションのためのビジョントランスフォーマによるパッチ集約

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵