MedArena: 臨床現場の医師の嗜好に基づくLLMの比較

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • MedArenaは、臨床医が自分の実世界の医療クエリに対して主要なLLMを比較できる対話型プラットフォームであり、静的なベンチマークの欠点を解消します。
  • 2025年11月1日までの12のLLMに対して臨床医の1571件の嗜好を基に、Bradley-Terry評価でGemini 2.0 Flash Thinking、Gemini 2.5 Pro、GPT-4oがトップモデルとして浮上しました。
  • 臨床医のプロンプトの大半は、事実の想起よりも治療決定、臨床文書作成、患者とのコミュニケーションに関するもので、約20%がマルチターンの会話を伴っていました。
  • 本研究は、応答長さやフォーマットといったスタイル要因を調整した後でもモデルのランキングが安定しており、MedArenaが医療用LLMのスケーラブルな実世界評価手法として有効であることを裏付けている。

要旨:
大規模言語モデル(LLM)は、臨床意思決定支援、医療教育、患者とのコミュニケーションなど、臨床医のワークフローにますます中心的な役割を果たしています。
しかし、医療用LLMの現在の評価手法は、静的で定型化されたベンチマークに大きく依存しており、現実の臨床実践の複雑さとダイナミクスを捉え切れず、ベンチマークの性能と臨床上の有用性との間に不整合を生み出しています。
これらの制約に対処するために、臨床専門家が自分の医療クエリを用いて主要なLLMを直接テスト・比較できるインタラクティブな評価プラットフォームであるMedArenaを紹介します。
臨床専門家が提供したクエリを前提に、MedArenaは2つのランダムに選択されたモデルの回答を提示し、ユーザーに好ましい回答を選択してもらいます。
2025年11月1日までに12のLLMで収集された1571件の好みのうち、Bradley-Terry評価で上位3モデルはGemini 2.0 Flash Thinking、Gemini 2.5 Pro、GPT-4oでした。
臨床専門家が提出した質問のうち、3分の1程度は事実の想起タスク(例:MedQA)に似ていましたが、ほとんどは治療選択、臨床文書化、患者とのコミュニケーションなどのトピックに関連し、約20%は複数ターンの対話を含んでいます。
さらに、臨床専門家は好みを説明する際、生の事実の正確性よりも深さと詳細さ、提示の明瞭さを頻繁に挙げており、読みやすさと臨床的ニュアンスの重要性を強調しています。
また、回答の長さやフォーマットなどのスタイル関連要因を制御しても、モデルの順位は安定していることを確認しました。
現実の臨床的な質問と好みに基づいて評価を行うことで、MedArenaは医療用LLMの有用性と有効性を測定・向上させるスケーラブルなプラットフォームを提供します。
返却形式: {"translated": "翻訳されたHTML"}