MLLM-HWSI: 階層的な全スライド画像理解のためのマルチモーダル大規模言語モデル
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、全スライド画像(WSI)を、スライド全体を単一の埋め込みに圧縮するのではなく、複数スケールにわたって証拠をモデル化することでよりよく理解するための階層的マルチモーダル大規模言語モデルであるMLLM-HWSIを提案する。
- 視覚的特徴を病理の言語へ4つのレベル—細胞(単語)、パッチ(句)、領域(文)、WSI(段落)—で対応付けるために、スケール固有の投影モジュール、階層的コントラスト学習、ならびにクロススケール一貫性損失を用いる。
- 本手法は診断に関連するパッチを算出し、セグメント化した細胞埋め込みを軽量なCell-Cell Attention Fusion(CCAF)トランスフォーマにより、コンパクトなパッチごとの「細胞トークン」に集約する。
- 導出したマルチスケールの視覚トークンをテキストトークンと融合し、指示チューニング済みのLLMに入力して、開かれた推論に加え、VQA、レポート生成、キャプション付けを可能にする。
- 3段階で学習した結果、MLLM-HWSIは6つの計算病理タスクにわたる13のWSIレベルのベンチマークで新たな最先端性能を達成したと報告されており、コードはGitHubで公開されている。
