Medmarks:医療タスク向けの包括的なオープンソースLLMベンチマークスイート

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Medmarksは、ベンチマークの飽和、データアクセス制限、タスク範囲の不足といった課題に対処しつつ、医療タスク向けに30のベンチマークを提供する完全オープンソースのLLM評価スイートです。
  • 著者らは、検証可能な指標とLLM-as-a-Judgeを用いて、質問応答、情報抽出、医療計算、オープンエンドの臨床推論などのタスクを含む形で、61モデルを71の設定で体系的に評価しました。
  • 結果として、最先端の推論モデル(Gemini 3 Pro Preview、GPT-5.1、GPT-5.2)がベンチマーク全体で最高の性能を示し、また医療分野で微調整されたモデルが一般の汎用モデルより優れていることが分かりました。
  • 多くの最先端のプロプライエタリモデルは、オープンウェイトの代替よりもトークン効率が高い一方で、小規模モデルやGrok 4では特に答え順バイアスへの感受性が大きいことも報告されています。
  • ベンチマークの一部(Medmarks-T)は、医療推論を目的としたLLMの事後学習(ポストトレーニング)のための強化学習環境として利用でき、コードはGitHubで公開されています。

概要: 医療用途において大規模言語モデル(LLM)を評価することは、ベンチマークの飽和、データへのアクセスの制限、関連するタスクのカバー範囲不足により、依然として困難です。既存の評価スイートは、飽和しているか、制限されたデータセットに大きく依存しているか、あるいは包括的なモデルカバレッジが欠けています。私たちは、質問応答、情報抽出、医療計算、そして自由形式の臨床的推論を含む30のベンチマークを備えた、完全にオープンソースの評価スイートであるMedmarksを導入します。検証可能な指標とLLM-as-a-Judgeを用いて、71の設定にわたって61モデルを体系的に評価します。その結果、最前線の推論モデル(Gemini 3 Pro Preview、GPT-5.1、& GPT-5.2)が両方のベンチマークで最高の性能を達成し、ほとんどの最前線の専用(プロプライエタリ)モデルは、オープンウェイトの代替案よりもトークン効率が大幅に高いこと、医療領域で微調整されたモデルは汎用家(ジェネラリスト)のモデルよりも優れていること、そしてモデルは回答順バイアス(特に小規模モデルとGrok 4)に影響を受けやすいことが分かりました。評価の一部であるMedmarks-Tは、医療推論のためにLLMを追加事前学習(ポストトレイン)するための強化学習環境としてそのまま使用できます。コードは https://github.com/MedARC-AI/Medmarks で利用可能です