UniSemAlign: Text-Prototype Alignment with a Foundation Encoder for Semi-Supervised Histopathology Segmentation

arXiv cs.CV / 4/13/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • UniSemAlignは、ヒストパソロジーのセマンティックセグメンテーションにおける少量のピクセル注釈と不安定な疑似ラベルを課題として、クラスレベルの構造を学習へ明示的に注入する枠組みを提案しています。
  • 病理学で事前学習したTransformerエンコーダを基盤に、プロトタイプ(prototype)とテキスト(text)をそれぞれ別ブランチで同一埋め込み空間にアラインし、クラスの曖昧さを減らして疑似ラベルの精錬を安定化します。
  • 視覚予測とアラインされた表現を融合し、ラベルなし画像に対するより信頼できる監督信号(疑似的な学習信号)を生成するように設計されています。
  • 学習は、教師ありセグメンテーションに加えて、クロスビュー整合性とクロスモーダル整合性の目的関数を用いたエンドツーエンド学習で行い、GlaS/CRAGで既存の半教師ありベースラインを上回る結果(Diceで最大GlaS+2.6%、CRAG+8.6%、10%ラベル)を報告しています。
  • コードが公開されており(GitHubリンクあり)、再現や応用が可能な研究成果として位置づけられています。

Abstract

Semi-supervised semantic segmentation in computational pathology remains challenging due to scarce pixel-level annotations and unreliable pseudo-label supervision. We propose UniSemAlign, a dual-modal semantic alignment framework that enhances visual segmentation by injecting explicit class-level structure into pixel-wise learning. Built upon a pathology-pretrained Transformer encoder, UniSemAlign introduces complementary prototype-level and text-level alignment branches in a shared embedding space, providing structured guidance that reduces class ambiguity and stabilizes pseudo-label refinement. The aligned representations are fused with visual predictions to generate more reliable supervision for unlabeled histopathology images. The framework is trained end-to-end with supervised segmentation, cross-view consistency, and cross-modal alignment objectives. Extensive experiments on the GlaS and CRAG datasets demonstrate that UniSemAlign substantially outperforms recent semi-supervised baselines under limited supervision, achieving Dice improvements of up to 2.6% on GlaS and 8.6% on CRAG with only 10% labeled data, and strong improvements at 20% supervision. Code is available at: https://github.com/thailevann/UniSemAlign