SkinCLIP-VL: 一貫性を意識したマルチモーダル皮膚がん診断のための視覚-言語学習

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SkinCLIP-VLは、データが限られ、かつ計算資源の制約が厳しい状況下でのマルチモーダル皮膚がん診断の改善を目的とした、リソース効率の高い視覚-言語学習フレームワークである。
本手法はCLIPエンコーダを凍結し、軽量で量子化されたQwen2.5-VLと、LoRAベースの低ランク適応を用いることで、モデルサイズを削減しつつ性能を維持する。
一貫性を意識したFocal Alignment（CFA）損失を導入し、特にロングテールなデータ分布下で、視覚領域を臨床的セマンティクスとより確実に整合させる。
ISICおよびDerm7ptベンチマークにおいて、SkinCLIP-VLは13Bパラメータのベースラインよりも精度を4.3〜6.2%向上させながら、パラメータ数を43%削減する。
ブラインド化された専門家評価および分布外（out-of-distribution）テストの結果から、従来のサリエンシーマップ手法と比較して、本モデルの視覚に根ざした根拠（rationales）が臨床的な信頼を高めることが示唆される。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to