MambaBack:全スライド画像解析においてローカル特徴とグローバル文脈をつなぐ

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、全スライド画像(WSI)解析向けに、局所的な細胞特徴抽出と大域的な文脈モデリングを両立するハイブリッドMIL(Multiple Instance Learning)アーキテクチャとしてMambaBackを提案しています。
  • Mambaベースの既存WSI解析手法の課題として、1D化による2D空間局所性の破壊、微細な局所構造のモデリング不足、エッジ端末での推論時メモリピークの高さに対処します。
  • MambaBackはHilbertサンプリング戦略によりタイルの2D関係を保持し、1D系列表現でも空間認識を改善します。
  • 階層構造として、局所特徴を捉える1D Gated CNNブロック(MambaOutに基づく)と、大域文脈を集約するBiMamba2ブロックを組み合わせ、マルチスケール表現を強化します。
  • 非対称チャンク処理により、学習では並列化し推論ではチャンク・ストリーミングで行うことでピークメモリを抑え、5つのデータセットで7つの最先端手法を上回る結果が示されており、コードも公開されています。

Abstract

全スライド画像(WSI)解析は計算病理学において重要であり、複数倍率にわたって形態学的および構造的手がかりを統合することでがん診断を可能にします。複数インスタンス学習(MIL)は、WSI解析の標準的な枠組みです。近年、Mambaは有望なMILバックボーンとして注目されており、自然言語処理(NLP)由来の高効率さとグローバルな文脈モデリング能力により、Transformersを上回る存在になっています。しかし、既存のMambaベースのMILアプローチには3つの重大な課題があります。(1)1D系列のフラット化によって2Dの空間的局所性が損なわれること、(2)微細な局所的細胞構造のモデリングが不十分であること、(3)リソース制約のあるエッジデバイス上で推論を行う際にメモリ使用のピークが高いことです。MambaOutのような研究は、MambaのSSMコンポーネントは局所特徴抽出に冗長であり、Gated CNNで十分であることを示しています。WSI解析では、自然画像に近いきめ細かな局所特徴抽出と、NLPに近いグローバル文脈モデリングの両方が必要であることを踏まえ、MambaBackという新しいハイブリッドアーキテクチャを提案します。これはMambaとMambaOutの強みを調和させるものです。まず、Hilbertサンプリング戦略を提案し、1D系列内でタイルの2D空間的局所性を保持してモデルの空間認識を高めます。次に、MambaOutに基づく1D Gated CNNブロックで局所の細胞特徴を捉え、BiMamba2ブロックでグローバルな文脈を集約する、階層的な構造を設計し、マルチスケール表現を共同で強化します。最後に、非対称なチャンク分割の設計を実装し、学習時の並列処理と、推論時のチャンクストリーミングによる累積を可能にすることで、デプロイ時のピークメモリ使用量を最小化します。5つのデータセットでの実験結果により、MambaBackは7つの最先端手法を上回ることが示されています。ソースコードとデータセットは公開されています。