DALPHIN:オープンな多施設データセットで病理医とデジタル病理AIコパイロットをベンチマークする
arXiv cs.CV / 2026/5/6
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、デジタル病理AIコパイロットを独立した形でベンチマークできるように設計した、初のオープン多施設ベンチマーク「DALPHIN」を提案しています。
- DALPHINは1,236枚の画像を300症例にわたって収録し、130の診断、6か国、14のサブスペシャリティをカバーすることで臨床領域全体での評価を可能にします。
- 10か国から31名の病理医(熟練度が異なる)による人間ベンチマークを用意し、一般用途モデル(GPT-5、Gemini 2.5 Pro)と病理特化コパイロット(PathChat+)を、独立応答と逐次応答の双方で評価します。
- 結果として、PathChat+は6タスク中4タスクで専門家レベルに統計的に有意な差がなく、Geminiは2/6、GPTは1/6にとどまり、システムごとの到達度に差があることが示されています。
- ベンチマークは、隔離されたグラウンドトゥルース(間接的にアクセス可能)と評価プラットフォームとともに公開されており、データ・手法・評価基盤はdalphin.grand-challenge.orgで利用できます。




