皮膚鏡による概念ボトルネックモデルにおける概念の不整合：Derm7ptデータセットの粗集合解析

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

概念ボトルネックモデル（CBM）は、診断ラベルが食い違う「同一の概念プロファイル」が存在すると解釈可能性のボトルネックが解消不能となり、データセットの概念レベルの不整合によって原理的に性能が制限され得る。
粗集合理論を用いてDerm7pt（皮膚鏡）ベンチマークを分析した結果、305の一意な概念プロファイルのうち50（16.4%）が不整合であり、306枚（30.3%）の画像に影響しているため、ハード概念のみで動作するCBMには理論上の精度上限（92.1%）が生じる。
不整合の重なり（衝突）の厳しさの分布や、境界の曖昧さに最も寄与する臨床的特徴を解析し、データセット構成とCBMの解釈可能性に定量的な影響を与える2つのフィルタリング手法を比較する。
対称的フィルタリングにより、分類の品質が完全でハード精度上限がない「Derm7pt+」（705枚）の完全整合サブセットを提示する。
フィルタリング条件の下で、19種類のバックボーンを用いたハードCBMを評価し、対称条件ではEfficientNet-B5、非対称条件ではEfficientNet-B7が主要指標で良好な性能を示すなど、概念整合性を担保した評価の再現可能なベースラインを確立する。

要旨: 概念ボトルネックモデル（CBM）は、予測を臨床的に根拠づけられた概念層を通してのみルーティングし、解釈可能性を概念ラベルの一貫性に結びつけます。データセットに概念レベルの不整合が含まれる場合、相反する診断ラベルに対応づけられた同一の概念プロファイルは、解消不能なボトルネックを生み出し、達成可能な精度に対して上限（ハードな天井）を課します。本論文では、デンマ7pt（Derm7pt）デスモスコピー・ベンチマークに対してラフ集合（rough set）理論を適用し、この不整合の全範囲と臨床的構造を特徴づけます。7点メラノーマ・チェックリストの7つのデスモスコープ基準によって形成された305のユニークな概念プロファイルのうち、50（16.4%）が不整合であり、306枚の画像（データセットの30.3%）にまたがります。これにより、概念だけをハードに動作させるCBMにおいて、バックボーンのアーキテクチャや学習戦略に依存しない理論上の精度上限は92.1%となります。さらに、競合の深刻度の分布を特徴づけ、境界の曖昧さに最も責任のある臨床的特徴を特定し、データセット構成とCBMの解釈可能性に対する定量化された影響を伴う2つのフィルタリング戦略を評価します。境界領域にある画像を対称的に除去すると、Derm7pt+ が得られます。これは705枚からなる完全に一貫したベンチマーク部分集合で、分類の品質が完全であり、ハードな精度上限はありません。このフィルタリング済みデータセットに基づき、EfficientNet、DenseNet、ResNet、Wide ResNetの各ファミリに属する19のバックボーン・アーキテクチャで評価したハードCBMを提示します。完全性の観点から検討した対称的フィルタリングのもとでは、EfficientNet-B5 が保持したテストセット上で最良のラベルF1スコア（0.85）とラベル精度（0.90）を達成し、概念精度は0.70です。非対称的フィルタリングのもとでは、EfficientNet-B7 が4つの指標すべてで先行し、ラベルF1スコアが0.82、概念精度が0.70に到達します。これらの結果は、デスモスコピー・データに対する概念整合的CBM評価のための再現可能なベースラインを確立します。