ModuSeg:トレーニング不要の弱教師ありセグメンテーションのための、オブジェクト発見とセマンティック検索のデカップリング

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ModuSegは、オブジェクトの発見(ローカライズ)とセマンティック割り当て(カテゴリラベリング)を明示的に分離する、トレーニング不要の弱教師あり意味セグメンテーション手法であり、モデルが疎な弁別領域に過適合することを回避します。
  • 一般的なマスク提案器を用いて信頼できる境界を持つ幾何学的な提案を生成し、その後、オフラインの特徴バンクに保存された基盤モデルの特徴に依存して、非パラメトリックな特徴検索によりセグメンテーションを行います。
  • 本手法は、セマンティック境界の精製と、ソフトマスクによる特徴集約を導入し、境界の曖昧さや量子化誤差を低減することで、学習されたカテゴリプロトタイプの品質を向上させます。
  • 標準的なベンチマークデータセットでの実験により、デカップル設計が微細な境界を保持しつつ、パラメータの微調整を行わなくても非常に競争力の高い性能を達成できることが示されており、コードは公開されています。

Abstract

弱教師あり意味セグメンテーションは、画像レベルのラベルを用いてピクセルレベルの予測を達成することを目指します。既存の手法は通常、意味の認識と物体の位置特定を絡めて最適化してしまい、その結果、モデルがまばらな識別的領域だけに注目するようになりがちです。基盤モデルは計り知れない可能性を示しているものの、多くのアプローチは依然として密に結合された最適化パラダイムに従っており、疑似ラベルのノイズを効果的に軽減することに苦戦し、また時間のかかる多段階の再学習や不安定なエンドツーエンドの同時最適化に頼ることが多いのが現状です。上記の課題に対処するために、本研究では、物体の発見と意味の割り当てを明示的に切り離すことを中心とした、学習不要の弱教師あり意味セグメンテーションフレームワークであるModuSegを提案します。具体的には、信頼できる境界を持つ幾何学的な提案を抽出するために汎用マスク提案器を統合しつつ、意味の基盤モデルを活用してオフラインの特徴バンクを構築し、セグメンテーションを非パラメトリックな特徴検索プロセスへと変換します。さらに、境界の曖昧さや量子化誤差を効果的に緩和するための、セマンティック境界の精製およびソフトマスク付き特徴集約の戦略を提案することで、高品質なカテゴリ・プロトタイプを抽出します。広範な実験により、提案する切り離し型アーキテクチャは、パラメータの微調整なしで微細な境界をより適切に保持でき、標準的なベンチマークデータセットで非常に競争力の高い性能を達成することが示されました。コードは https://github.com/Autumnair007/ModuSeg で公開されています。