概要: 深層学習モデルは医用画像解析において強力な性能を示してきましたが、その内部の意思決定プロセスは解釈が難しいままです。概念ボトルネックモデル(CBM)は、人間が解釈可能な臨床概念を通じて予測を構造化することで、この制限を部分的に改善します。しかし、既存のCBMは概念間の文脈的な依存関係を通常見落としています。これらの課題に対処するため、我々はマルチモーダル整合と構造化された概念推論を統合する、エンドツーエンドで解釈可能な枠組み emph{DCG-Net} を提案します。DCG-Net は、コサイン類似度によるマッチングを、視覚トークンと正準化されたテキストの概念-値プロトタイプの間の双方向アテンションに置き換えるデュアル・クロスアテンションモジュールを導入し、空間的に局在した根拠の帰属を可能にします。臨床概念に内在する関係の構造を捉えるために、我々は正のポイントワイズ相互情報量の事前分布で初期化され、疎性を制御したメッセージパッシングで洗練された、パラメトリック概念グラフを開発します。この定式化は、臨床領域の知識と整合する形で概念間の依存関係をモデル化します。白血球の形態と皮膚病変の診断に関する実験により、DCG-Net が臨床的に解釈可能な診断説明を生成しつつ、最先端の分類性能を達成することが示されました。
DCG-Net:概念-価値グラフ推論とデュアル・クロス注意による解釈可能な医療診断
arXiv cs.CV / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、深層モデルの意思決定プロセスをより透明にすることを目的とした、エンドツーエンドの解釈可能な医療診断フレームワーク「DCG-Net」を提案する。
- DCG-Netは、視覚トークンを正規化(カノニカル化)されたテキストの概念-価値プロトタイプに対応付けるデュアル・クロス注意メカニズムを用いることで、コサイン類似度による照合に依存するのではなく、空間的に局在した根拠の帰属を可能にする。
- 正の点ごとの相互情報量(Positive Pointwise Mutual Information)を事前分布として初期化したパラメトリック概念グラフを組み込み、疎性を制御したメッセージパッシングによって臨床概念間の依存関係をモデル化する。
- 白血球の形態および皮膚病変の診断に関する実験では、最先端の分類性能に加えて、臨床的に解釈可能な診断説明が報告されている。