PubMed Reasoner：動的推論に基づく証拠に根差した生物医学質問応答のための検索

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

PubMed Reasonerは、反復的にクエリを洗練し、検証可能な情報源を引用することで回答の信頼性を高める、証拠に根差した生物医学QAエージェントとして導入される。
本システムは3つの段階で構成される。すなわち、部分的（メタデータ）な取得によってMeSH用語のカバレッジを評価・改善する自己批評型のクエリ洗練ステップ、記事をバッチで収集する内省型の検索ループ、そして明示的な引用を伴う証拠に根差した応答生成である。
GPT-4oをバックボーンとした実験では、PubMedQAで78.32%の精度を報告しており（人間の専門家をわずかに上回る）、MMLUの臨床知識でも一貫した改善が示される。
LLMを「判定者」とする評価では、推論の妥当性、エビデンスの根拠、臨床的妥当性、そして総合的な信頼性の観点で、PubMed Reasonerの出力がより好まれる。著者らは計算コスト／トークンコストの制御にも言及している。
提案手法は、従来の検索拡張型や自己反省型手法の限界に対処することを目指しており、ストリームの途中でクエリを洗練し、十分な証拠が集まってからのみ応答生成へ切り替える。