SkinCLIP-VL: 一貫性を意識したマルチモーダル皮膚がん診断のための視覚-言語学習

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SkinCLIP-VLは、データが限られ、かつ計算資源の制約が厳しい状況下でのマルチモーダル皮膚がん診断の改善を目的とした、リソース効率の高い視覚-言語学習フレームワークである。
  • 本手法はCLIPエンコーダを凍結し、軽量で量子化されたQwen2.5-VLと、LoRAベースの低ランク適応を用いることで、モデルサイズを削減しつつ性能を維持する。
  • 一貫性を意識したFocal Alignment(CFA)損失を導入し、特にロングテールなデータ分布下で、視覚領域を臨床的セマンティクスとより確実に整合させる。
  • ISICおよびDerm7ptベンチマークにおいて、SkinCLIP-VLは13Bパラメータのベースラインよりも精度を4.3〜6.2%向上させながら、パラメータ数を43%削減する。
  • ブラインド化された専門家評価および分布外(out-of-distribution)テストの結果から、従来のサリエンシーマップ手法と比較して、本モデルの視覚に根ざした根拠(rationales)が臨床的な信頼を高めることが示唆される。