Doctorina MedBench: エージェント型医療AIのエンドツーエンド評価
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Doctorina MedBenchは、医師と患者の現実的な対話をシミュレーションすることで、エージェント型医療AIをエンドツーエンドで評価する枠組みを提案しています。
- ベンチマークは、病歴収集から検査/所見の分析、鑑別診断、個別化された提案までの多段階臨床対話を評価対象にし、D.O.T.S.(Diagnosis/Observations&Investigations/Treatment/Step Count)で臨床的正確さと対話効率の両面を測ります。
- モデル劣化を開発・運用の両段階で検知するための多層テスト/品質監視アーキテクチャ、セーフティ目的のトラップケース、カテゴリ別のランダムサンプリング、完全な回帰テストを備えています。
- データセットは1,000件超の臨床ケースで750件以上の診断をカバーし、医療AIだけでなく医師評価や臨床推論スキル開発にも利用可能であるとしています。



