HiPath: 構造化病理レポート予測のための階層的視覚-言語アライメント

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • HiPath は、構造化病理レポートを予測するための軽量なビジョン-ランゲージモデルで、凍結された UNI2 および Qwen3 のバックボーン上に構築された総計 1500万パラメータの 3 つの学習可能モジュールを使用します。
  • 階層的パッチアグリゲータ(HiPA)によるマルチイメージ視覚エンコーディング、最適輸送を介したクロスモーダルアライメントのための階層的対比学習(HiCL)、および構造化診断生成のためのスロットベースのマスク診断予測(Slot-MDP)を導入します。
  • 749千件の実世界中国病理症例(3つの病院)で訓練された HiPath は、厳密な正解率 68.9%、臨床的に許容される正解率 74.7%、安全性 97.3% を達成し、同じ凍結バックボーンの下でベースラインを上回ります。
  • 病院間評価は、厳密な正確度がわずか 3.4 ポイント低下するだけで汎化性があること、97.1% の安全性を示すことから、機関間の頑健性を示しています。
  • 本研究は、構造化レポート予測を、平坦なラベルや自由テキスト出力よりも主要な訓練目的として強調しています。

要旨:病理報告は、診断結論、組織学的階級、付随する検査結果を1つ以上の解剖学的部位に跨って符号化した構造化された多階層文書です。しかし既存の病理ビジョン-言語モデル(VLM)は、この出力を平坦なラベルや自由形式テキストに縮小します。私たちは HiPath を提示します。凍結済みの UNI2 および Qwen3 バックボーン上で構築された軽量な VLM フレームワークで、構造化報告の予測を主要な訓練目的として扱います。三つの学習可能モジュール(総計1500万パラメータ)は、問題の補完的側面に対処します:複数画像の視覚エンコーディング用の階層的パッチ集約器(HiPA)、最適輸送を通じたクロスモーダル整合性のための階層的対照学習(HiCL)、および構造化診断生成のためのスロットベースのマスク診断予測(Slot-MDP)。三つの病院からの実世界の中国病理ケース74.9万件を用いて訓練された HiPath は、厳密精度 68.9%、臨床的に許容される精度 74.7%、安全性 97.3% を達成し、同じ凍結バックボーンの下で全てのベースラインを上回っています。病院間の評価は、厳密精度をわずか3.4ポイント低下させるのみで、97.1%の安全性を維持し、一般化を確認します。

広告