AgentSLR:エピデミオロジーにおける体系的文献レビューをエージェント型AIで自動化する

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、エピデミオロジー領域の体系的文献レビューを、検索からスクリーニング、データ抽出、レポートの統合に至るまで自動化する、大規模言語モデルを用いたオープンソースのエージェント型AIパイプライン「AgentSLR」を提示する。
  • WHOが指定する優先度の高い9つの病原体に関する疫学的レビューの実験において、AgentSLRは専門家がキュレーションしたグラウンドトゥルースの性能に匹敵するとされ、エンドツーエンドのレビュー時間を約7週間から約20時間へと短縮した(約58倍の高速化)。
  • 5つの最先端モデルに対するベンチマークでは、SLRの性能はモデルのサイズや推論コストだけでなく、各モデルの固有の能力の違いにより大きく左右されることが示唆される。
  • 著者らは、人間によるループ(ヒューマン・イン・ザ・ループ)の検証を含めて主要な失敗モードを特定し、エージェント型自動化がなお監督を必要とする可能性がある箇所を強調している。
  • 全体として本研究は、エージェント型AIが専門的な科学的エビデンス統合を大幅に加速でき、エビデンスに基づく政策策定のボトルネックを軽減し得ると主張する。

概要: 系統的文献レビューは科学的エビデンスを統合するうえで不可欠ですが、高コストであり、規模拡大が難しく、時間がかかるため、エビデンスに基づく政策決定のボトルネックになっています。本研究では、大規模言語モデルが、論文の取得、論文のスクリーニング、データ抽出からレポートの統合(シンセシス)に至るまで、完全な系統的レビューのワークフローを自動化できるかを検討します。9つのWHO指定の優先病原体に関する疫学的レビューに適用し、専門家がキュレーションしたグラウンドトゥルースで検証したところ、オープンソースのエージェント型パイプライン(AgentSLR)は、人間の研究者と同等の性能を達成しつつ、レビュー時間を約7週間から20時間へと削減しました(58倍のスピードアップ)。5つの最先端モデルの比較により、SLRにおける性能はモデルサイズや推論コストよりも、各モデルの固有の能力によって左右されることが分かりました。人間を介した検証により、主要な失敗モードを特定します。本研究の結果は、エージェント型AIが専門領域における科学的エビデンス統合を大幅に加速できることを示しています。