Amodal SAM:一般化を備えた統一型アモーダルセグメンテーションフレームワーク

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

要点

  • 本論文は、MetaのSAMを拡張してアモーダル(遮蔽領域を含む)セグメンテーションを行う「Amodal SAM」という統一フレームワークを提案しており、画像だけでなく動画にも対応します。
  • SAMの高い汎化性能を維持しつつ、遮蔽領域を復元するための軽量なSpatial Completion Adapterによってアモーダル課題へ拡張しています。
  • アモーダル注釈の不足に対処するため、Target-Aware Occlusion Synthesis(TAOS)というパイプラインで多様な合成学習データを生成します。
  • さらに、領域の一貫性と位相的正則化を強める新しい学習目的を導入し、予測される形状の品質と整合性を向上させます。
  • 実験では標準ベンチマークでの最先端性能に加え、新しい物体カテゴリや未見の状況への頑健な汎化が示されています。

Abstract

無形(アモーダル)セグメンテーションは、遮蔽された領域を含む物体の完全な幾何学的形状を予測することを目的とする難しいタスクである。既存の手法は主に学習ドメイン内での無形セグメンテーションに焦点を当てているものの、これらのアプローチはしばしば、新しい物体カテゴリや未見の状況へ効果的に拡張するための汎化能力に欠けている。本論文では、無形SAM(Amodal SAM)を導入する。これは、SAM(Segment Anything Model)を用いて、無形画像セグメンテーションと無形ビデオセグメンテーションの両方を行う統一的な枠組みである。無形SAMは、SAMの強力な汎化能力を維持しつつ、その本来の能力を無形セグメンテーション課題へ拡張する。改良点は3つの側面にある。 (1) 隠れ領域の再構成を可能にする軽量なSpatial Completion Adapter、 (2) 多様な合成学習データを生成することで無形アノテーションの不足に対処するTarget-Aware Occlusion Synthesis(TAOS)パイプライン、 (3) 領域の整合性とトポロジーに関する正則化を強制する新しい学習目的である。大規模な実験により、無形SAMが標準ベンチマークにおいて最先端の性能を達成しつつ、同時に新しいシナリオに対して頑健な汎化を示すことが明らかになった。本研究は、拘束のない実世界環境で効果的に動作可能な、実用的な無形セグメンテーションシステムへと分野を前進させることを期待している。