WHBench:女性の健康トピックにおける専門家の介入による検証で最先端LLMを評価する
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、女性の健康に特化した評価スイートであるWHBenchを提案する。臨床的に意味のあるLLMの失敗モード(古いガイダンスや投与量の誤りなど)を明らかにするため、10のトピックにまたがる47の専門家が作成したシナリオを用いる。
- 23の基準からなるルーブリックにより、臨床的正確性、安全性、網羅性、コミュニケーション、指示追従、公平性、不確実性の扱い、ガイドライン遵守を評価する。22の最先端LLMを評価し、安全性を重みづけした採点とサーバ側での再計算を行う。
- 試行された3,102件の応答において、いずれのモデルも平均パフォーマンスで75%を超えず、最良でも72.1%であった。結果は、完全に正しい回答率が低いことに加え、有害性率に意味のあるばらつきがあることを示す。
- 著者らは、応答ラベルのレベルでは中程度の評価者間一致がある一方で、モデルのランキングに関しては高い一致があることを見出す。これにより、WHBenchが比較評価に有用であることが支持されると同時に、臨床導入において専門家の監督が必要であることも強調される。
- WHBenchは、公的な、失敗モードを意識したベンチマークとして位置づけられており、安全でより公平な女性の健康AIへ向けた進展を追跡することを目的としている。




