AI Navigate

リウマチ学領域の観察研究における STROBE チェックリストの評価に関する大型言語モデル・人間レビュアー・著者間の合意

arXiv cs.AI / 2026/3/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、22項目の STROBE チェックリストを用いて、17件のリウマチ学研究にわたり、STROBE の評価を、大型言語モデル(ChatGPT-5.2 および Gemini-3Pro)、5名の人間レビューパネル、および元の論文著者の間で比較した。
  • 全体の評価者間一致率は 85.0%(AC1 = 0.826)で、提示と文脈の領域でほぼ完璧な一致(AC1 = 0.841)、方法論的厳密性の領域で実質的な一致(AC1 = 0.803)だった。
  • LLM は標準的な書式設定項目では人間レビュアーと完全一致を達成したが、複雑な方法論的項目では一致が低かった。たとえば、追跡離脱項目では Gemini-3Pro と上級レビュアーの AC1 が -0.252 となり、著者との一致はむしろ公正だった。
  • ChatGPT-5.2 は特定の方法論的項目で Gemini-3Pro よりも人間レビュアーとの一致度が高いことが一般的に示された。
  • 結論: LLM は基本的な STROBE のスクリーニングには潜在力を示す一方で、複雑な項目に対する人間専門家との一致が低いことから、観察研究を評価する際に専門家の判断を置き換えるにはまだ不十分である。

要旨: はじめに: 観察疫学研究の報告を強化する STROBE 宣言(STROBE)の適合性を評価することは、時間がかかり主観的になることがあります。この研究は、観察的リウマチ学研究における STROBE の評価を、大規模言語モデル(LLMs)、人間レビューパネル、および元の原稿著者によって比較します。
方法: GRRAS および DEAL Pathway B フレームワークに基づき、17 編のリウマチ学論文を独立して評価しました。評価には22項目の STROBE チェックリストを使用し、著者自身が完成させたもの、5名の人間パネル(ジュニアからシニアの専門家まで)、および2つのLLM(ChatGPT-5.2、Gemini-3Pro)が関与しました。項目は、方法論的厳密さと提示・文脈のドメインに分類されました。評者間信頼性は、Gwetの一致係数(AC1)を用いて算出されました。
結果: 全評価者間の総合一致は85.0%(AC1=0.826)でした。領域別層別化では、提示と文脈についてはほぼ完璧な一致(AC1=0.841)、方法論的厳密さについては実質的な一致(AC1=0.803)を示しました。LLMは標準的な書式要素については全ての人間評価者と完全一致(AC1=1.000)を達成したものの、複雑な項目では人間評価者および著者との一致は低下しました。例えば、追跡喪失に関する項目では、Gemini 3 Proと上級レビュアーの一致はAC1=-0.252、著者との一致は適度な程度でした。さらに、ChatGPT-5.2は特定の方法論的項目でGemini-3Proよりも人間の評価者との一致が高いことを一般的に示しました。
結論: 基本的な STROBE スクリーニングには LLMS の可能性を示す一方、複雑な方法論的項目で人間の専門家と一致する度合いが低いのは、表層情報に依存していることを反映している可能性が高いです。現在、これらのモデルは、観察研究を評価する際に専門家の判断を置き換えるよりも、単純なチェックを標準化する方が信頼性が高いように見えます。