MagicSeg: カウンターファクチュアル拡散ベースの自動生成によるオープンワールド分割の事前学習

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • 本論文は、クラスラベルをテキスト記述へ変換して画像生成を導く拡散モデル駆動のパイプラインMagicSegを紹介し、オープンワールド分割データセットを生成する。
  • 対照学習を可能にし、分割のデータの多様性を向上させるために、正例画像とカウンターファクチュアルな負例画像の両方を生成する。
  • パイプラインは、オープンボキャブラリ検出器とインタラクティブなセグメンテーションモデルを用いて合成画像からピクセルレベルのマスクを抽出し、事前学習のための疑似ラベル監督を提供する。
  • MagicSegはPASCAL VOC(62.9%)、PASCAL Context(26.7%)、COCO(40.2%)で最先端の成果を達成し、オープンワールドセマンティックセグメンテーションに対する有効性を示している。

要旨: オープンワールド意味論的セグメンテーションは現在、広範な画像-テキストペアデータセットに大きく依存しており、十分なカテゴリに対する細粒度のピクセル注釈が欠如していることが多い。 このようなデータの取得は、人手と時間の多大な投資のため、経済的に実現不能となっている。 拡散モデルの卓越した画像生成能力を踏まえ、オープンワールド意味論的セグメンテーションのニーズに合わせて自動的にデータセットを生成する新しい拡散モデル駆動のパイプラインを導入し、「MagicSeg」と名付けます。我々の「MagicSeg」はクラスラベルから出発し、高忠実度のテキスト記述を生成します。これらは拡散モデルに画像を生成させる際の指針として機能します。 各ラベルについて陽性サンプルだけを生成するのではなく、対応する負の画像を同時に生成するプロセスを含み、対照学習のペアとして機能する反事実サンプルとして設計されています。 次に、オープンワールド分割の事前学習の自己教師あり信号を提供するために、我々の「MagicSeg」はオープンボキャブラリ検出モデルとインタラクティブ分割モデルを統合し、提供されたカテゴリラベルに基づく画像から正確なセグメンテーションラベルとしての物体マスクを抽出します。 本データセットを、疑似マスクによる監督と補助的な反事実対比学習を組み合わせた対照的言語-画像事前学習モデルへ適用することで、下流のモデルはオープンワールド意味論的セグメンテーションで高い性能を発揮します。 本モデルを PASCAL VOC、PASCAL Context、COCO で評価し、それぞれ 62.9%、26.7%、40.2% の最先端性能(SOTA)を達成し、我々のデータセットがオープンワールド意味論的セグメンテーション能力を高める有効性を示しています。 プロジェクト公式サイト: https://github.com/ckxhp/magicseg.