要旨: 胸部CTからの自動診断は、深層学習によってかなり改善されてきましたが、偏ったデータセットで訓練されたモデルは、患者の属性(デモグラフィック)にわたって不均一な性能を示しがちです。しかし、この状況は単純なデモグラフィック・バイアス以上に深刻です。臨床データでは、クラス不均衡と集団の過小表現がしばしば同時に起こり、その結果、通常の再重み付け(リバランシング)や公正性(フェアネス)の補正だけでは単独では修正できない複合的な失敗モードが生まれます。本研究では、この問題の両方の軸を同時に扱う二段階の目的関数を提案します。対数オッズ調整付き交差エントロピー損失(logit-adjusted cross-entropy loss)はサンプルレベルで動作し、クラス頻度に応じて意思決定マージンをシフトさせます。さらに、証明可能な一貫性(コンシステンシー)の保証を提供します。条件付きリスク予測値(Conditional Value at Risk)の集約は集団レベルで動作し、現在最も損失が大きいデモグラフィック集団へ最適化の圧力を向けます。我々は、Kinetics-400で事前学習した3D ResNet-18を用いたベンチマーク「Fair Disease Diagnosis」で評価します。CTボリュームを、患者の性別注釈付きで、腺癌(Adenocarcinoma)、扁平上皮癌(Squamous Cell Carcinoma)、COVID-19、正常(Normal)の各群に分類します。訓練セットは、この複合問題を具体的に示しています。扁平上皮癌は合計84サンプルで、そのうち女性は5です。結合した損失は、性別で平均したマクロF1が0.8403で、公正性ギャップが0.0239となります。これはベースラインに対してスコアが13.3%改善し、デモグラフィック間の不均衡が78%減少したことを意味します。アブレーションでは、各成分単独では不十分であることが示されています。コードは https://github.com/Purdue-M2/Fair-Disease-Diagnosis で公開されています。
CT画像における堅牢な公正な疾患診断
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、胸部CTの疾患診断モデルにおける不公平な性能を扱う。原因は年齢や性別などの人口統計上の偏りだけでなく、クラス不均衡と、十分に表れていない集団が重なり合う複合的な問題にもある。
- クラス頻度のサンプルレベルのマージン校正に対してlogit調整付きクロスエントロピーを用い、さらに集団レベルの公正性への圧力としてConditional Value at Risk(CVaR)を集約する2段階の学習目的を提案する。
- Kinetics-400で事前学習した3D ResNet-18を用いる「Fair Disease Diagnosis」ベンチマークでの実験では、Adenocarcinoma(腺癌)、Squamous Cell Carcinoma(扁平上皮癌)、COVID-19、Normal(正常)の4カテゴリの分類を評価し、患者の性別アノテーションも使用する。
- 結果として、性別平均のmacro F1が向上(0.8403)し、公正性ギャップは小さく(0.0239)、スコアが13.3%改善し、人口統計上の不均衡(disparity)がベースラインに比べ78%削減されたことが報告されている。
- アブレーション研究では、サンプルレベルの調整、または集団レベルのCVaR成分のいずれか単独では十分な改善が得られないことが示されており、著者らはGitHub上で公開コードを提供している。
