MLLM-HWSI: 階層的な全スライド画像理解のためのマルチモーダル大規模言語モデル

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、全スライド画像(WSI)を、スライド全体を単一の埋め込みに圧縮するのではなく、複数スケールにわたって証拠をモデル化することでよりよく理解するための階層的マルチモーダル大規模言語モデルであるMLLM-HWSIを提案する。
  • 視覚的特徴を病理の言語へ4つのレベル—細胞(単語)、パッチ(句)、領域(文)、WSI(段落)—で対応付けるために、スケール固有の投影モジュール、階層的コントラスト学習、ならびにクロススケール一貫性損失を用いる。
  • 本手法は診断に関連するパッチを算出し、セグメント化した細胞埋め込みを軽量なCell-Cell Attention Fusion(CCAF)トランスフォーマにより、コンパクトなパッチごとの「細胞トークン」に集約する。
  • 導出したマルチスケールの視覚トークンをテキストトークンと融合し、指示チューニング済みのLLMに入力して、開かれた推論に加え、VQA、レポート生成、キャプション付けを可能にする。
  • 3段階で学習した結果、MLLM-HWSIは6つの計算病理タスクにわたる13のWSIレベルのベンチマークで新たな最先端性能を達成したと報告されており、コードはGitHubで公開されている。

Abstract

全スライド画像(WSI)は階層構造を示し、診断情報は細胞の形態、領域における組織の構成、そしてグローバルな文脈から現れます。既存の計算病理(CPath)マルチモーダル大規模言語モデル(MLLM)は、通常、WSI全体を単一の埋め込みに圧縮しますが、これによりきめ細かなグラウンディングが妨げられ、病理医が異なるスケールの証拠をどのように統合して判断するかが無視されます。私たちは、視覚的特徴と言語の病理表現を4つの異なるスケールで対応付ける階層型WSIレベルMLLMである\textbf{MLLM-HWSI}を提案します。具体的には、細胞を単語、パッチをフレーズ、領域を文、WSIを段落として扱い、解釈可能な証拠に基づく推論を支援します。MLLM-HWSIは、各WSIをスケール固有のプロジェクタを用いたマルチスケール埋め込みへ分解し、さらに(i)階層的コントラスト目的と(ii)クロススケール一貫性損失を共同で課すことで、細胞からWSIまでの意味的な整合性を保ちます。診断に関連するパッチを計算し、セグメンテーションされた細胞の埋め込みを、軽量な\textit{Cell-Cell Attention Fusion (CCAF)}トランスフォーマーを用いて、パッチごとにコンパクトな細胞トークンへ集約します。投影されたマルチスケールトークンはテキストトークンと融合され、指示にチューニングされたLLMに投入され、オープンエンドな推論、VQA、レポート生成、キャプション生成といったタスクが実行されます。3段階で学習されたMLLM-HWSIは、6つのCPathタスクにまたがる13のWSIレベルベンチマークで新たなSOTAを達成します。言語をマルチスケールの視覚的証拠に対応付けることで、MLLM-HWSIは診断ワークフローを模倣する正確で解釈可能な出力を提供し、より包括的なWSI理解を前進させます。コードは以下で利用可能です:\href{https://github.com/BasitAlawode/HWSI-MLLM}{GitHub}。