概要: 計算病理における半教師あり意味セグメンテーションは、画素レベルのアノテーションが乏しいことと、信頼性の低い擬似ラベルによる教師信号が原因で、依然として困難です。私たちはUniSemAlignを提案します。これは、デュアルモーダルな意味整合のフレームワークであり、画素単位の学習に明示的なクラスレベルの構造を注入することで、視覚セグメンテーションを強化します。病理学で事前学習したTransformerエンコーダに基づき、UniSemAlignは共有埋め込み空間上で、補完的なプロトタイプレベルおよびテキストレベルの整合ブランチを導入します。これにより、クラスの曖昧さを減らし、擬似ラベルの洗練を安定化させる構造化されたガイダンスが提供されます。整合された表現は視覚的な予測と融合され、ラベルなしの組織病理画像に対してより信頼性の高い教師信号を生成します。このフレームワークは、教師ありセグメンテーション、ビュー間の整合性、およびモーダル間整合の目的により、エンドツーエンドで学習されます。GlaSおよびCRAGデータセットでの大規模な実験により、UniSemAlignは、限られた教師信号下で、最近の半教師ありベースラインを大幅に上回ることが示されています。10%のラベル付きデータのみで、GlaSでは最大2.6%、CRAGでは最大8.6%のDice向上を達成し、さらに20%の教師信号でも強い改善が得られます。コードは以下で利用可能です: https://github.com/thailevann/UniSemAlign
UniSemAlign:基盤エンコーダによるテキスト・プロトタイプ整合で実現する半教師ありヒストパソロジー・セグメンテーション
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- UniSemAlignは、ヒストパソロジーのセマンティックセグメンテーションにおいて、少量のピクセル注釈と不安定な疑似ラベルを課題とし、クラスレベルの構造を学習へ明示的に注入する枠組みを提案しています。
- 病理学で事前学習したTransformerエンコーダを基盤に、プロトタイプ(prototype)とテキスト(text)をそれぞれ別ブランチで同一の埋め込み空間にアラインし、クラスの曖昧さを減らすことで疑似ラベルの精錬を安定化します。
- 視覚予測とアラインされた表現を融合し、ラベルなし画像に対してより信頼できる監督信号(疑似的な学習信号)を生成するように設計されています。
- 学習は、教師ありセグメンテーションに加えて、クロスビュー整合性とクロスモーダル整合性の目的関数を用いたエンドツーエンド学習で行い、GlaS/CRAGにおいて既存の半教師ありベースラインを上回る結果(DiceでGlaS+2.6%、CRAG+8.6%、10%ラベル)を報告しています。
- コードは公開されており(GitHubリンクあり)、再現や応用が可能な研究成果として位置づけられています。

