Doctorina MedBench: エージェント型医療AIのエンドツーエンド評価

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Doctorina MedBenchは、医師と患者の現実的な対話をシミュレーションすることで、エージェント型医療AIをエンドツーエンドで評価する枠組みを提案しています。
ベンチマークは、病歴収集から検査/所見の分析、鑑別診断、個別化された提案までの多段階臨床対話を評価対象にし、D.O.T.S.（Diagnosis/Observations&Investigations/Treatment/Step Count）で臨床的正確さと対話効率の両面を測ります。
モデル劣化を開発・運用の両段階で検知するための多層テスト/品質監視アーキテクチャ、セーフティ目的のトラップケース、カテゴリ別のランダムサンプリング、完全な回帰テストを備えています。
データセットは1,000件超の臨床ケースで750件以上の診断をカバーし、医療AIだけでなく医師評価や臨床推論スキル開発にも利用可能であるとしています。

Abstract

本稿では、現実的な医師-患者間のやり取りのシミュレーションに基づく、エージェント型医療AIのための包括的な評価フレームワークであるDoctorina MedBenchを提示する。標準化されたテスト問題を解くことに依拠する従来の医療ベンチマークとは異なり、提案手法は多段階の臨床対話をモデル化する。そこでは、医師またはAIシステムのいずれかが、医療面接から病歴を収集し、添付された資料（検査レポート、画像、医療文書など）を分析し、鑑別診断を形成し、個別化された推奨を提示する必要がある。システム性能は、診断（Diagnosis）、観察/検査（Observations/Investigations）、治療（Treatment）、ステップ数（Step Count）の4つの構成要素から成るD.O.T.S.指標によって評価され、臨床的正確性と対話の効率の両方を評価できる。また、開発中および導入中の双方におけるモデルの劣化を検出するための、多層的なテストおよび品質監視のアーキテクチャを組み込んでいる。このフレームワークは、安全性に配慮したトラップケース、臨床シナリオのカテゴリー別ランダムサンプリング、そして完全な回帰テストをサポートする。データセットは現在、750件超の診断をカバーする1,000件以上の臨床ケースを含んでいる。評価指標の汎用性により、このフレームワークは医療AIシステムの評価だけでなく、医師の評価や臨床推論能力の開発を支援するためにも利用できる。われわれの結果は、従来の試験形式ベンチマークと比べて、臨床対話のシミュレーションが臨床的能力をより現実的に評価し得ることを示唆している。