LLMエージェントは実世界エビデンスを生成できるか?医療データベースにおける観察研究の評価

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、医療データベースに対して、個別のQA手順ではなく、データベース実行と首尾一貫したレポーティングを組み合わせることで観察研究を再現し、LLMエージェントがエンドツーエンドで実世界エビデンス(RWE)を生成できるかを評価する。
  • RWE-benchを導入する。これはMIMIC-IVと査読済みの観察研究から構築されたベンチマークであり、エージェントには研究プロトコルを参照標準として与えられ、ツリー構造のエビデンス・バンドルを作成することが求められる。
  • 162のタスク、6種類のLLM、3種類の異なるエージェント・スキャフォールドにわたって、全体的なタスク成功率は低い。最良のエージェントで39.9%、最良のオープンソースモデルで30.4%である。
  • エージェント・スキャフォールドの選択は成否に大きく影響し、パフォーマンスのばらつきは30%超に達する。これは、ワークフロー設計が結果を左右する重要な決定因子であることを示唆する。
  • 著者らはさらに、自動化されたコホート評価手法を追加し、誤りの発生箇所を特定し、エージェントの失敗モードを特徴づける。また、効率的な検証は主要な未解決の方向性だと結論づける。

要旨: 観察研究は、臨床的に実行可能なエビデンスを大規模に得られる可能性がありますが、それを実世界のデータベース上で実行することは終わりのない作業であり、コホート構築、分析、報告にまたがって首尾一貫した意思決定が必要です。これまでのLLMエージェントの評価は、単発の手順や単一の回答に重点を置いており、その結果得られるエビデンス・バンドルの完全性や内部構造を見落としていました。このギャップに対処するために、我々はRWE-benchを導入します。これはMIMIC-IVに基づき、査読済みの観察研究から派生したベンチマークです。各課題では、参照標準として対応する研究プロトコルを提示し、エージェントには実データベース上で実験を実行し、反復的に木構造化されたエビデンス・バンドルを生成することが求められます。 6つのLLM(オープンソース3つ、クローズドソース3つ)を、3つのエージェント・スキャフォールドの下で、質問レベルの正確さとエンドツーエンドのタスク指標の両方により評価します。162のタスクを通じて、タスク成功率は低く、最良のエージェントは39.9%にとどまり、最良のオープンソースモデルは30.4%でした。エージェント・スキャフォールドもまた、性能指標において30%以上の変動を引き起こすほど大きく影響します。さらに、誤りを迅速に局所化し、エージェントの失敗モードを特定するための自動化されたコホート評価手法を実装します。全体として、これらの結果は、エージェントがエンドツーエンドのエビデンス・バンドルを生成する能力における持続的な限界を示しており、効率的な検証は今後の重要な方向性であることが浮き彫りになりました。コードとデータは https://github.com/somewordstoolate/RWE-bench で利用可能です。