MedConclusion：構造化抄録からの生物医学的結論生成のためのベンチマーク

arXiv cs.CL / 2026/4/9

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

MedConclusionは、構造化された抄録から生物医学的結論生成をベンチマークするために設計された、5.7M件規模のPubMed構造化抄録からなる大規模データセットとして導入される。
各例は、結論以外の抄録セクションを著者が書いた元の結論に対応づけ、エビデンスから結論への推論を自然に教師あり学習するための仕組みを提供する。
データセットには、ジャーナルレベルのメタデータ（例：生物医学カテゴリやSJR）が含まれており、生物医学領域をまたいだサブグループ分析を支援する。
初期実験では、結論に焦点を当てたプロンプトと要約に焦点を当てたプロンプトの両方を用い、複数のLLMを評価し、参照ベースの指標とLLM-as-a-judgeによる採点の両方を用いる。
本研究は、結論生成は要約作成と行動的に異なること、またジャッジ（評価者）となるLLMの同一性が評価スコアの絶対値に大きく影響し得ることを報告している。

要旨: 大規模言語モデル（LLM）は推論集約型の研究タスクに広く検討されていますが、構造化された生物医学的エビデンスから科学的結論を推論できるかどうかを検証するためのリソースは依然として限られています。私たちは、
\(\textbf{5.7M}\)件のPubMedの構造化抄録からなる、\(\textbf{MedConclusion}\)という大規模データセットを導入します。各データは、抄録の結論以外のセクションと、原著者によって書かれた元の結論を組にしており、エビデンスから結論への推論に対して自然に生じる形の教師データ（監督）を提供します。MedConclusionには、生物医学カテゴリやSJRといったジャーナルレベルのメタデータも含まれており、生物医学領域をまたいだサブグループ分析が可能です。初期研究として、結論および要約のプロンプト設定の下で多様なLLMを評価し、参照ベースの指標とLLMを裁定者（LLM-as-a-judge）とする指標の両方で出力をスコア付けします。その結果、結論の記述は要約の記述とは行動的に明確に異なり、強力なモデルは現行の自動指標のもとでは密にクラスター化したままであり、裁定者の同一性は絶対スコアを大きく変動させ得ることがわかりました。MedConclusionは、科学的なエビデンスから結論への推論を研究するための再利用可能なデータ資源を提供します。私たちのコードとデータは以下で利用できます: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.