HealthBench Professional:実臨床の医師チャットで大規模言語モデルを評価する

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • HealthBench Professionalは、医師が実務でChatGPTを使う実際の場面に基づいて、大規模言語モデルを評価するためのオープン・ベンチマークとして提案されました。
  • ベンチマークは、ケア相談、文章・記録作成、医学研究という3つの中核的なユースケースで構成され、医師が作成した「医師—ChatGPT」の会話例が用意されています。
  • 採点は、医師が作成したルーブリックを用い、少なくとも3人以上の医師が複数フェーズで反復的に審査する形で行われ、評価の信頼性を高めることを狙っています。
  • データセットは、フロンティアモデルに対して質・代表性・難易度が高いケースを重視して選定されており、難例の強化や、意図的な敵対的テストを含む例の割合も大きいです。
  • 評価の結果、最上位のシステム(ChatGPT for Clinicians上のGPT-5.4)が、他の評価対象モデルや人間の医師を上回り、臨床的に重要な性能の進展を追跡するための基準を示しています。