GenMask：ダイレクト・マスクによるセグメンテーションのためのDiT適応

arXiv cs.CV / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、セグメンテーションは、間接的な特徴抽出器として事前学習済みの生成モデルに依存するのではなく、生成的な方法で直接学習されるべきだと主張する。これに対し、既存手法は表現のミスアラインメントやパイプラインの複雑さといった問題を抱える。
共同学習における主要な障害として、二値マスクのVAE潜在表現が自然画像の潜在表現とは異なる振る舞いをする点を特定する。具体的には、二値マスクの潜在表現は鋭く分布し、ノイズに頑健である。
GenMaskは、二値マスクには極端なノイズレベルを用い、画像生成には中程度のノイズを維持するタイムステップのサンプリング戦略を導入する。これにより、両者の調和のとれた共同学習を可能にする。
本手法は、DiTモデルを学習して、生成の元の目的のままRGB画像と白黒のセグメンテーションマスクの両方を生成する。これにより、セグメンテーション専用の特徴抽出パイプラインは不要となる。
実験では、「参照（referring）」および「推論（reasoning）」に関するセグメンテーションのベンチマークで最先端の結果が報告されており、アブレーションにより提案コンポーネントの寄与が検証されている。

Mistral AI Blog

Dev.to

Dev.to

Dev.to

Dev.to