SSMamba:病理画像分類のための自己教師ありハイブリッド状態空間モデル

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、病理画像分類に向けてROI(関心領域)レベルの形態学的特徴をより良く捉える自己教師ありハイブリッド状態空間モデル「SSMamba」を提案しています。
  • 既存のROI基盤モデルが抱える主な課題(倍率が異なる領域間のドメインシフト、局所・大域の関係モデリングの弱さ、微細な診断手がかりへの感度不足)に焦点を当てています。
  • SSMambaは、Mamba Masked Image Modeling(MAMIM)、Directional Multi-scale(DMS)モジュール、Local Perception Residual(LPR)モジュールの3つのドメイン適応コンポーネントでこれらの問題を解決します。
  • 2段階の学習手順(ターゲットROIデータセットでの自己教師あり事前学習→教師あり微調整)により、10の公開ROIデータセットで11の最先端(SOTA)病理ROI基盤モデルを上回り、さらに6つの公開WSIデータセットでも8つのSOTA手法を上回ったと報告しています。
  • 著者らは、非常に大規模な外部データセットに依存せずとも、病理画像解析向けのタスク特化型アーキテクチャ設計が性能を大きく改善し得ることを示しています。

要旨: 病理診断は画像解析への依存度が非常に高く、関心領域(Regions of Interest; ROIs)が診断上の根拠の主要な基盤となる一方で、全スライド画像(whole-slide image; WSI)レベルのタスクでは主として集約されたパターンが捉えられます。これらの重要な形態学的特徴を抽出するために、Vision Transformer(ViT)に基づくROIレベルの基盤モデル(Foundation Models; FMs)と、大規模な自己教師あり学習(Self-Supervised Learning; SSL)が広く採用されてきました。しかし、ROI解析への適用においては次の3つの中核的な制約が残っています:(1)倍率の異なる領域間でのドメインシフト。固定スケールでの事前学習が多様な臨床環境への適応を妨げること。(2)局所と全体の関係のモデリングが不十分。FMのViTバックボーンは計算オーバーヘッドが大きく、局所的な特徴表現が精確ではないこと。(3)きめ細かな感度が不足。従来の自己注意機構は、微細な診断手がかりを見落としがちであること。これらの課題に対処するために、我々はSSMambaを提案します。SSMambaは、大規模な外部データセットに依存せずに、効果的なきめ細かな特徴学習を可能にするハイブリッドSSLフレームワークです。本フレームワークには、3つのドメイン適応コンポーネントが組み込まれています: ドメインシフトを緩和するためのMamba Masked Image Modeling(MAMIM)、局所と全体のモデリングをバランスさせるためのDirectional Multi-scale(DMS)モジュール、そしてきめ細かな感度を高めるためのLocal Perception Residual(LPR)モジュールです。二段階パイプラインを用い、まず標的ROIデータセット上でSSL事前学習を行い、その後に教師あり微調整(SFT)を実施することで、SSMambaは10の公開ROIデータセットにおいて11の最先端(SOTA)病理FMを上回り、さらに6つの公開WSIデータセットにおいて8つのSOTA手法を上回ります。これらの結果は、病理画像解析におけるタスク固有のアーキテクチャ設計が優れていることを裏付けています。