MedPRMBench：医療推論におけるプロセス報酬モデルのためのきめ細かなベンチマーク

arXiv cs.CL / 2026/4/21

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この論文は、一般領域ではなく医療推論に特化してProcess-Level Reward Models（PRM）を評価するための、初のきめ細かなベンチマーク「MedPRMBench」を提案しています。
MedPRMBenchはClinical Reasoning Blueprints（CRB）に基づく3段階のパイプラインで構築され、7つの医療QAソースから、Simplicity・Soundness・Sensitivityの3カテゴリに分けた14種類のエラータイプを含む評価データを生成します。
臨床上の重要度を定量化するための4段階の重症度グレーディングを備え、ヘルスケア利用の安全性が重視される特徴に対応しています。
ベンチマークは6,500問（13,000の推論チェーンと113,910のステップレベルラベル）に加え、学習用に6,879問を含み、医療PRMのベースラインは全体PRMScore 87.1%を達成したと報告されています。
MedPRMBenchをプラグアンドプレイの検証器として用いることで、下流の医療QA精度が3.2〜6.7ポイント向上し、複数タイプのモデルを評価した結果、エラー検出における弱点が明らかになったとしています。

要旨: プロセス・レベルの報酬モデル（PRM）は、大規模言語モデルにおける複雑な推論を導くために不可欠ですが、既存のPRMベンチマークは数学のような一般領域のみを扱っており、医療推論を扱えていません。医療推論は、安全性の重要性（safety criticality）、知識集約性（knowledge intensity）、多様な誤りパターンという点で独自の特徴を持ちます。信頼できる医療用PRM評価フレームワークがないため、臨床推論におけるモデルの誤り検出能力を定量化できず、現実の医療アプリケーションにおける安全性が検証されないままになっています。私たちは、医療領域向けの初のプロセス・レベル報酬モデルベンチマークであるMedPRMBenchを提案します。Clinical Reasoning Blueprints（CRB）に基づく3段階パイプラインにより構築されたMedPRMBenchは、7つの医療QAソースから、3つのカテゴリ（Simplicity、Soundness、Sensitivity）にまたがる14のきめ細かな誤りタイプを対象として、最初の4段階の重大度（severity）評価体系も備えた高品質な評価データを体系的に生成します。ベンチマークは6{,}500問、13{,}000本の推論チェーン、113{,}910のステップレベルラベルで構成され、加えて学習用として6{,}879問を備えます。私たちの医療用PRMベースラインは、全体で87.1\%のPRMScoreを達成し、すべてのベースラインを大きく上回ります。また、プラグアンドプレイで動作する検証器として機能し、下流の医療QA精度を3.2--6.7パーセンテージポイント改善します。専有のフロンティアモデル、オープンソースの推論モデル、医療に特化したモデルにまたがる体系的な評価により、現在のモデルの医療推論における誤り検出能力に重大な弱点があることが明らかになり、今後のPRM改善に向けた明確な指針が提供されます。