LLMエージェントは実世界エビデンスを生成できるか？医療データベースにおける観察研究の評価

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医療データベースに対して、個別のQA手順ではなく、データベース実行と首尾一貫したレポーティングを組み合わせることで観察研究を再現し、LLMエージェントがエンドツーエンドで実世界エビデンス（RWE）を生成できるかを評価する。
RWE-benchを導入する。これはMIMIC-IVと査読済みの観察研究から構築されたベンチマークであり、エージェントには研究プロトコルを参照標準として与えられ、ツリー構造のエビデンス・バンドルを作成することが求められる。
162のタスク、6種類のLLM、3種類の異なるエージェント・スキャフォールドにわたって、全体的なタスク成功率は低い。最良のエージェントで39.9%、最良のオープンソースモデルで30.4%である。
エージェント・スキャフォールドの選択は成否に大きく影響し、パフォーマンスのばらつきは30%超に達する。これは、ワークフロー設計が結果を左右する重要な決定因子であることを示唆する。
著者らはさらに、自動化されたコホート評価手法を追加し、誤りの発生箇所を特定し、エージェントの失敗モードを特徴づける。また、効率的な検証は主要な未解決の方向性だと結論づける。

要旨: 観察研究は、臨床的に実行可能なエビデンスを大規模に得られる可能性がありますが、それを実世界のデータベース上で実行することは終わりのない作業であり、コホート構築、分析、報告にまたがって首尾一貫した意思決定が必要です。これまでのLLMエージェントの評価は、単発の手順や単一の回答に重点を置いており、その結果得られるエビデンス・バンドルの完全性や内部構造を見落としていました。このギャップに対処するために、我々はRWE-benchを導入します。これはMIMIC-IVに基づき、査読済みの観察研究から派生したベンチマークです。各課題では、参照標準として対応する研究プロトコルを提示し、エージェントには実データベース上で実験を実行し、反復的に木構造化されたエビデンス・バンドルを生成することが求められます。 6つのLLM（オープンソース3つ、クローズドソース3つ）を、3つのエージェント・スキャフォールドの下で、質問レベルの正確さとエンドツーエンドのタスク指標の両方により評価します。162のタスクを通じて、タスク成功率は低く、最良のエージェントは39.9%にとどまり、最良のオープンソースモデルは30.4%でした。エージェント・スキャフォールドもまた、性能指標において30%以上の変動を引き起こすほど大きく影響します。さらに、誤りを迅速に局所化し、エージェントの失敗モードを特定するための自動化されたコホート評価手法を実装します。全体として、これらの結果は、エージェントがエンドツーエンドのエビデンス・バンドルを生成する能力における持続的な限界を示しており、効率的な検証は今後の重要な方向性であることが浮き彫りになりました。コードとデータは https://github.com/somewordstoolate/RWE-bench で利用可能です。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

LLMエージェントは実世界エビデンスを生成できるか？医療データベースにおける観察研究の評価

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer