生成的潜在空間拡張によるあらゆる品質の画像のセグメンテーション

arXiv cs.CV / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Segment Anything（SAM）モデルは、劣化の激しい低品質画像で大きく性能が低下し、現場での有効性が制限されています。
論文では、SAMベースのセグメンテーション枠組みの潜在空間で生成的拡散を行い、高品質な表現を再構成することで頑健性を高めるGleSAMを提案しています。
潜在拡散の概念をセグメンテーションに適応し、事前学習済みの拡散モデルとSAM/SAM2のパイプラインの適合性を高めるための2つの手法も追加しています。
GleSAMは、事前学習済みのSAMおよびSAM2に対して、追加で学習すべきパラメータを最小限に抑えつつ適用できる設計になっています。
さらに劣化の種類と強度の多様性を持つLQSegデータセットを構築し、複雑な劣化や未見の劣化でのセグメンテーション改善と、鮮明画像での汎化維持の両立を示しています。

Abstract

その成功にもかかわらず、Segment Anything Models（SAM）は、著しく劣化した低品質画像に対して大幅な性能低下を起こし、実環境での有効性を制限しています。これに対処するために、我々はGleSAMを提案します。GleSAMは、生成的潜在空間強調（Generative Latent space Enhancement）を用いて低品質画像に対する頑健性を高め、さまざまな画像品質にわたって一般化できるようにします。具体的には、潜在拡散の概念をSAMベースのセグメンテーション枠組みに適応し、SAMの潜在空間において生成的拡散プロセスを実行して高品質な表現を再構成し、それによってセグメンテーションを改善します。さらに、事前学習済み拡散モデルとセグメンテーション枠組みの適合性を高めるために、2つの手法を導入します。我々の手法は、最小限の追加学習可能パラメータのみで、事前学習済みのSAMおよびSAM2に適用できるため、効率的な最適化が可能です。また、学習および評価のために、劣化タイプと劣化レベルの多様性をより高めたLQSegデータセットを構築します。広範な実験の結果、GleSAMは、明瞭な画像への一般化を維持しつつ、複雑な劣化に対するセグメンテーションの頑健性を大幅に改善することが示されました。さらに、GleSAMは未見の劣化に対しても良好に機能しており、本アプローチとデータセットの汎用性が裏付けられます。