ピクセルから説明へ：CNN-Transformerアンサンブル、視覚的な根拠、視覚言語モデルによる解釈可能な糖尿病網膜症の重症度評価

arXiv cs.CV / 2026/4/28

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、網膜画像のピクセル情報から臨床的に意味のある出力へと変換する、解釈可能な糖尿病網膜症（DR）重症度評価手法を提案している。
APTOS 2019ベンチマークに対し、CNNとTransformer系の6つのバックボーンを管理された実験プロトコル（層化5-fold交差検証）で評価し、単一モデルとしてはResNet-50とConvNeXt-Tinyが最も強い基準性能を示した。
アンサンブル（ハード投票、重み付きソフト投票、スタッキング、ハイブリッドなクラス別融合）を比較し、折り値間で最も一貫性の高い改善をもたらしたのは重み付きソフト投票だった。
解釈性のためにGrad-CAM++の視覚的アトリビューションに加え、視覚言語モデル（VLM）による短いテキスト根拠を組み合わせ、Grad-CAM++は局在が粗い一方で、VLMの根拠は概ね重症度整合的であることを示した。
VLM部分では臨床的な網羅性とテンプレートレベルの意味的一致の間にトレードオフがある一方、画像-テキスト整合性（CLIPScore等）は概ね同程度であることが定量的に示された。

要旨: 糖尿病網膜症（DR）のスクリーニングの品質は、重症度を正しく段階付けできる能力に依存しています。しかし、多くの深層学習（DL）分類器は、臨床的な文脈において容易に解釈できません。本研究では、強力な識別モデルとマルチモーダルな説明を組み合わせ、網膜画素を臨床的に解釈可能な出力へ変換する手法を提示します。APTDOS 2019のベンチマークを用い、階層化した5-fold交差検証を含む制御されたプロトコルのもとで、6つの代表的なCNNおよびトランスフォーマーベースのバックボーンを評価しました。次に、アンサンブル戦略（ハード投票、重み付きソフト投票、スタッキング）を比較し、グレードごとの利点を活用するためのハイブリッドなクラスレベル融合バリアントについて検討しました。解釈可能性のために、Grad-CAM++の視覚的帰属マップと、視覚言語モデル（VLM）を用いた短いテキストによる根拠を作成しました。これは、眼底画像と分類器出力を、保守的なプロンプト制約のもとで条件付けることで行いました。現代的なCNNバックボーン（ResNet-50およびConvNeXt-Tiny）は、単一モデルとして最も強力なベースラインを提供し、それぞれ交差検証に基づくQWKが最大0.919および0.914でした。アンサンブルは順序（オーディナル）一致を改善し、重み付きソフト投票がフォールド間で最も一貫していました（QWK 0.934 +/- 0.017）。ハイブリッドなクラスレベル融合は競争力がありましたが、対応するフォールドの比較において標準的な融合を統計的に信頼できる形で上回る改善は得られませんでした（Holm補正後のp >= 1.000）。説明の質については、Grad-CAM++はもっともらしいものの粗い局在を示し、VLMの根拠は概ねグレード整合的でした。定量的に、VLMのバリアントは臨床的な網羅性とテンプレートレベルの意味的類似性の間でトレードオフを示しました（網羅度0.700 vs. BERTScore 0.072）。一方で、画像とテキストの整合は同程度でした（CLIPScore 約0.34）。