SkinGPT-X：透明性と信頼性のある皮膚科診断のための自己進化型コラボレーティブ・マルチエージェントシステム

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SkinGPT-Xは、多モーダルな協調型マルチエージェント皮膚科診断システムであり、モノリシックなLLMでは提供しにくい解釈可能性と追跡可能性を、きめ細かく希少な皮膚疾患の症例に対して向上させることを目的としています。
本アプローチでは、静的な知識ベースに依存するのではなく、時間とともに適応する自己進化型の皮膚科メモリ機構を導入し、現実の臨床における複雑性により適合することを目指します。
本論文は、複数の公開データセットにおいて、4つの主要なLLMと比較した結果を報告しており、DDI31で+9.6%の精度向上、Dermnetで重み付きF1が+13%向上しています。
きめ細かな症例および希少疾患の性能を評価するために、著者らは498カテゴリのデータセットと、8つの希少疾患にまたがる564サンプルからなる希少皮膚疾患ベンチマークを構築しており、SkinGPT-Xは精度を+9.8%改善し、重み付きF1およびCohen’s Kappaでも向上が見られます。
頑健性を評価するために3段階の比較実験設計が用いられており、SkinGPT-Xは、より信頼でき、臨床に整合したAIによる診断推論パイプラインに向けた研究上の貢献として位置付けられます。

Abstract

近年の大規模言語モデル（Large Language Models）の進歩は皮膚科診断を大きく前進させている一方で、モノリシックなLLMは、学習データの疎性により、きめ細かく大規模な多クラス診断タスクや、まれな皮膚疾患の診断にしばしば苦戦します。さらに、臨床推論に不可欠な解釈可能性および追跡可能性も欠いています。マルチエージェントシステムであれば、より透明で説明可能な診断を提供できる可能性がありますが、既存の枠組みは主にビジュアル質問応答や会話タスクに重点が置かれており、静的な知識ベースへの強い依存によって、複雑な現実の臨床環境に対する適応性が制限されています。ここでは、自己進化型の皮膚科メモリ機構と統合した、皮膚科診断のためのマルチモーダルな協調型マルチエージェントシステムであるSkinGPT-Xを提案します。皮膚科医の診断ワークフローを模倣し、連続的なメモリ進化を可能にすることで、SkinGPT-Xは、複雑でまれな皮膚疾患症例の管理に向けた、透明で信頼できる診断を提供します。SkinGPT-Xの頑健性を検証するために、3段階の比較実験を設計します。まず、SkinGPT-Xを4つの最先端LLMと4つの公開データセットにおいてベンチマークし、その性能が最先端モデルを上回ることを示します。具体的には、DDI31で+9.6%の精度向上、Dermnetで最先端モデルに対する+13%の加重F1向上です。次に、きめ細かな分類能力を評価するため、498の異なる皮膚科カテゴリをカバーする大規模な多クラスデータセットを構築します。最後に、臨床におけるまれな皮膚疾患の希少性に取り組む最初のベンチマークとなる、まれな皮膚疾患データセットを厳選して作成します。これには8つのまれな皮膚疾患に対して564の臨床サンプルが含まれます。このデータセット上で、SkinGPT-Xは+9.8%の精度向上、+7.1%の加重F1向上、+10%のCohen's Kappa向上を達成します。