長尾分布を持つ医用画像分類のための合成データ生成:皮膚病変を対象としたケーススタディ

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、希少クラスに対して深層学習モデルの性能が落ちやすい「長尾分布」を持つ医用画像分類の課題に取り組みます。
  • 提案手法では、改良したインペインティング(補完)拡散モデルと、外れ(OOD)を用いた事後選別メカニズムを組み合わせ、多様で現実的かつ臨床的に意味のある合成サンプルを生成します。
  • ISIC2019の皮膚病変分類データセットで検証したところ、全体の性能が大きく向上し、特に最少サンプルのクラスでは28%以上の改善が見られます。
  • 従来の再重み付け損失や手作りのデータ拡張などに比べて、拡散モデルによる合成データ拡張がクラス不均衡の緩和と医療分類の頑健性向上に有効であることを示しています。
  • 希少クラスを狙いながら臨床的な妥当性を保ちつつ、合成データ生成をよりスケールさせる道筋を提示する内容です。