PhysicianBench：実運用のEHR環境でLLMエージェントを評価する

arXiv cs.AI / 2026/5/5

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

この論文では、静的な知識想起ではなく、電子カルテ（EHR）環境内で医師タスクを行うLLMエージェントを評価するためのベンチマーク「PhysicianBench」を提案しています。
現実の臨床で特徴的な長期・多段階のワークフローを重視し、21の専門領域にまたがる実際の診療ケースを基に100のタスクを構成しており、平均で27回のツール呼び出しを要し、診断解釈・処方・治療計画などを含みます。
各タスクは実患者記録を用いてEHRベンダーの標準APIと同様の手段で実行され、670件の構造化チェックポイント（タスク別スクリプト）によって、実行に基づく検証付きで到達度が判定されます。
13のプロプライエタリおよびオープンソースのLLMエージェントを評価した結果、能力のギャップが大きいことが示され、最良でもpass@1成功率は46%にとどまり、オープンソースは最大19%でした。
PhysicianBenchは、EHR環境に対する検証可能な実行を課すことで、自律型臨床エージェントの進展をより現実的に測定することを目的としています。

要旨: 電子健康記録（EHR）環境における実臨床の状況に根ざした医師業務を対象として、LLMエージェントを評価するためのベンチマーク「PhysicianBench」を提案します。既存の医療エージェントのベンチマークは主に、静的な知識の想起、単一ステップの原子的なアクション、あるいは環境に対して検証可能な実行が伴わないアクション意図に焦点を当てています。その結果、実際の臨床システムを特徴づける長期的で複合的なワークフローを捉えられていません。PhysicianBenchは、プライマリ・ケア医と専門領域の医師の間で行われた実際の診察ケースから適応した100の長期的タスクで構成され、各タスクは別個の医師パネルによって独立にレビューされます。タスクは、実患者の記録を備えたEHR環境上に実装され、商用のEHRベンダが用いるのと同じ標準APIを通じてアクセスされます。タスクは21の専門領域（例：循環器内科、内分泌学、腫瘍学、精神医学）および多様なワークフロー種別（例：診断解釈、処方の作成、治療計画）にまたがり、タスクごとに平均27回のツール呼び出しを要します。各タスクの解決には、複数の受診（エンカウンター）にまたがるデータの取得、異種の臨床情報に対する推論、有意義な臨床アクションの実行、そして臨床ドキュメンテーションの作成が必要です。各タスクは、ベンチマーク全体で合計670の構造化されたチェックポイントへと分解され、タスク固有のスクリプトによって採点され、実行に基づく検証によって裏付けられる完了段階を捉えます。13の独自実装およびオープンソースのLLMエージェントにおいて、最も良い性能のモデルでも成功率（pass@1）は46%にとどまりますが、オープンソースモデルは最大でも19%であり、現在のエージェント能力と実世界の臨床ワークフローの要求の間には大きな隔たりがあることが示されます。PhysicianBenchは、自律的な臨床エージェントに向けた進展を測定するための、現実的で実行に根ざしたベンチマークを提供します。