AI Navigate

Vision-Languageモデルはコンセプトベースの医療推論のための臨床ガイドラインをエンコードする

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、臨床ガイドラインとVision-Languageモデルを統合した解釈可能な医療画像解析のためのコンセプトベース推論フレームワークMedCBRを紹介する。
  • MedCBRは、多モーダルコントラストアライメント、コンセプト監督、および診断分類を組み合わせたマルチタスク学習アプローチを用いて、画像特徴、コンセプト、病理を同時に基づかせる。
  • このフレームワークは、確立されたガイドラインに基づく専門家の診断推論を模倣した構造化された臨床ナラティブにモデルの予測を変換し、医療AIの透明性を高める。
  • MedCBRは、超音波でAUROC94.2%、マンモグラフィで84.0%という高い診断性能を示し、非医療データセットに対しても高い精度を達成している。
  • このアプローチは医用画像解析と臨床意思決定を橋渡しし、複雑な診断シナリオにおけるモデルの解釈性と信頼性を向上させる。
概念ボトルネックモデル(Concept Bottleneck Models, CBMs)は、タスク特化の下流予測のために学習された視覚特徴を一連の意味ある概念にマッピングする、解釈可能なAIの代表的な枠組みである。CBMsの逐次構造は、モデルの予測をそれを支える基礎概念に接続することで透明性を高める。透明性が不可欠な医療画像領域では、CBMsは説明可能なモデル設計の魅力的な基盤を提供する。しかしながら、離散的な概念表現は、診断ガイドラインや専門家の経験則といった広範な臨床コンテクストを見落としがちであり、複雑な症例での信頼性を低下させる。我々はMedCBRを提案する。これは臨床ガイドラインをVision-Languageおよび推論モデルと統合したコンセプトベース推論フレームワークである。ラベル付けされた臨床記述子はガイドライン準拠のテキストに変換され、多モーダルコントラストアライメント、コンセプト監督、診断分類を組み合わせたマルチタスク目的で学習されたコンセプトベースモデルにより、画像特徴、概念、および病理が共同で基づかれる。推論モデルはこれらの予測を受け取り、確立されたガイドラインに基づく専門家の推論を模倣して診断を説明する構造化臨床ナラティブに変換する。MedCBRは、超音波でAUROC 94.2%、マンモグラフィで84.0%の優れた診断・概念レベル性能を達成した。さらなる非医療データセットの実験では86.1%の精度を示している。我々のフレームワークは解釈可能性を強化し、医療画像解析から意思決定へのエンドツーエンドの橋渡しを実現する。