DALPHIN：オープンな多施設データセットで病理医とデジタル病理AIコパイロットをベンチマークする

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、デジタル病理AIコパイロットを独立した形でベンチマークできるように設計した、初のオープン多施設ベンチマーク「DALPHIN」を提案しています。
DALPHINは1,236枚の画像を300症例にわたって収録し、130の診断、6か国、14のサブスペシャリティをカバーすることで臨床領域全体での評価を可能にします。
10か国から31名の病理医（熟練度が異なる）による人間ベンチマークを用意し、一般用途モデル（GPT-5、Gemini 2.5 Pro）と病理特化コパイロット（PathChat+）を、独立応答と逐次応答の双方で評価します。
結果として、PathChat+は6タスク中4タスクで専門家レベルに統計的に有意な差がなく、Geminiは2/6、GPTは1/6にとどまり、システムごとの到達度に差があることが示されています。
ベンチマークは、隔離されたグラウンドトゥルース（間接的にアクセス可能）と評価プラットフォームとともに公開されており、データ・手法・評価基盤はdalphin.grand-challenge.orgで利用できます。