WHBench：女性の健康トピックにおける専門家の介入による検証で最先端LLMを評価する

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、女性の健康に特化した評価スイートであるWHBenchを提案する。臨床的に意味のあるLLMの失敗モード（古いガイダンスや投与量の誤りなど）を明らかにするため、10のトピックにまたがる47の専門家が作成したシナリオを用いる。
23の基準からなるルーブリックにより、臨床的正確性、安全性、網羅性、コミュニケーション、指示追従、公平性、不確実性の扱い、ガイドライン遵守を評価する。22の最先端LLMを評価し、安全性を重みづけした採点とサーバ側での再計算を行う。
試行された3,102件の応答において、いずれのモデルも平均パフォーマンスで75%を超えず、最良でも72.1%であった。結果は、完全に正しい回答率が低いことに加え、有害性率に意味のあるばらつきがあることを示す。
著者らは、応答ラベルのレベルでは中程度の評価者間一致がある一方で、モデルのランキングに関しては高い一致があることを見出す。これにより、WHBenchが比較評価に有用であることが支持されると同時に、臨床導入において専門家の監督が必要であることも強調される。
WHBenchは、公的な、失敗モードを意識したベンチマークとして位置づけられており、安全でより公平な女性の健康AIへ向けた進展を追跡することを目的としている。

Abstract

大規模言語モデルは医療ガイダンスにますます利用されていますが、女性の健康はベンチマーク設計において十分に評価されていません。我々は、10の女性の健康トピックにまたがる47の専門家が作成したシナリオからなる、特化型評価スイート「Women’s Health Benchmark（WHBench）」を提示します。これにより、臨床的に意味のある失敗モード（古いガイドライン、危険な見落とし、投薬量の誤り、そして公平性に関する盲点など）をあぶり出すことを目的としています。我々は、臨床的正確性、網羅性、安全性、コミュニケーションの質、指示追従、公平性、不確実性の扱い、ガイドライン遵守にまたがる23の基準ルーブリックを用いて22のモデルを評価し、安全性に重みを付けた減点と、サーバー側でのスコア再計算を行います。試行された3,102件の応答（3,100件が採点）において、いずれのモデルの平均性能も75パーセントを超えません。最良のモデルは72.1パーセントです。最高水準のモデルでさえ、完全に正しい割合が低く、害の発生率には大きなばらつきがあります。評価者間の一致度は、応答ラベルのレベルでは中程度ですが、モデルの順位付けでは高く、比較に基づくシステム評価におけるWHBenchの有用性を支持すると同時に、臨床導入において専門家による監督が必要であることを明らかにしています。WHBenchは、女性の健康AIにおけるより安全で、より公平な進展を追跡するための、公開された失敗モード認識型ベンチマークを提供します。