Semantic Context-aware mOdality fUsion Transformer(SCOUT):概念に基づく病理レポート生成のための文脈対応マルチモーダル・トランスフォーマー

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、WSI(ホールスライド画像)から臨床的に根拠のある病理レポートを生成するための文脈対応マルチモーダル・トランスフォーマー「SCOUT」を提案し、単なる流暢な生成に留まらない「概念の裏付け」を重視します。
  • SCOUTは、画像表現を大域的なスライド文脈と明示的な診断コンセプトの両方で段階的に条件付けし、局所の組織学的パターン、スライドレベルの構造、高レベルの意味記述(専門家がキュレーションしたセマンティック記述)を統一的な学習枠組みで統合します。
  • エンコード中に画像特徴を動的に洗練し、生成時には深さに応じた文脈モジュレーションと適応的なマルチモーダル融合を用いることで、解釈可能性と臨床的な一貫性を高めます。
  • CONCH1.5の特徴を用いた実験では、先行手法(WSI-Caption、HistGen、BiGen)に対して、複数のベンチマークでBLEU-1〜BLEU-4とMETEORのトップ成績、さらに一部データセットでROUGE-Lの最高成績を達成します。
  • TCGA-BRCAではBLEU-1/2/3/4やMETEORなどで良好な指標を報告し、REG 2025でも高いスコアを示しており、概念に基づく病理レポート生成における段階的な文脈条件付けの有効性を支持しています。