HealthBench Professional：実臨床の医師チャットで大規模言語モデルを評価する

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

HealthBench Professionalは、医師が実務でChatGPTを使う実際の場面に基づいて、大規模言語モデルを評価するためのオープン・ベンチマークとして提案されました。
ベンチマークは、ケア相談、文章・記録作成、医学研究という3つの中核的なユースケースで構成され、医師が作成した「医師—ChatGPT」の会話例が用意されています。
採点は、医師が作成したルーブリックを用い、少なくとも3人以上の医師が複数フェーズで反復的に審査する形で行われ、評価の信頼性を高めることを狙っています。
データセットは、フロンティアモデルに対して質・代表性・難易度が高いケースを重視して選定されており、難例の強化や、意図的な敵対的テストを含む例の割合も大きいです。
評価の結果、最上位のシステム（ChatGPT for Clinicians上のGPT-5.4）が、他の評価対象モデルや人間の医師を上回り、臨床的に重要な性能の進展を追跡するための基準を示しています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

Dev.to

ITmedia AI+

Reddit r/artificial

Dev.to