HealthBench Professional:実臨床の医師チャットで大規模言語モデルを評価する
arXiv cs.CL / 2026/5/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- HealthBench Professionalは、医師が実務でChatGPTを使う実際の場面に基づいて、大規模言語モデルを評価するためのオープン・ベンチマークとして提案されました。
- ベンチマークは、ケア相談、文章・記録作成、医学研究という3つの中核的なユースケースで構成され、医師が作成した「医師—ChatGPT」の会話例が用意されています。
- 採点は、医師が作成したルーブリックを用い、少なくとも3人以上の医師が複数フェーズで反復的に審査する形で行われ、評価の信頼性を高めることを狙っています。
- データセットは、フロンティアモデルに対して質・代表性・難易度が高いケースを重視して選定されており、難例の強化や、意図的な敵対的テストを含む例の割合も大きいです。
- 評価の結果、最上位のシステム(ChatGPT for Clinicians上のGPT-5.4)が、他の評価対象モデルや人間の医師を上回り、臨床的に重要な性能の進展を追跡するための基準を示しています。




