システマティックレビューのスクリーニングのための大規模言語モデルのファインチューニング

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、システマティックレビューのスクリーニングに対する従来のLLMアプローチで結果が一貫しなかった理由を調査し、強力な性能にはプロンプトだけでは十分な文脈が欠けていると主張する。
  • 研究者らは、8,500件以上のレコードからなるデータセットにおける人手評価を用いて、タイトルおよび抄録のスクリーニング専用に、小規模な1.2B(12億)パラメータのオープンウェイトLLMをファインチューニングした。
  • ファインチューニング後のモデルはベースモデルを大幅に上回り、重み付きF1スコアで80.79%の改善を達成した。
  • 8,277件の全データセットにおいて、ファインチューニング後のモデルは人手によるコーダーと一致し、86.40%の一致率を示した。さらに、真陽性率91.18%、真陰性率86.38%を含んでいた。
  • 著者らは、反復した推論実行において挙動が安定し、一致が完全であることを報告しており、大規模なシステマティックレビューのワークフローに対してファインチューニングが有望であると結論づけている。

Abstract

システマティックレビューは伝統的に、潜在的な採否に向けて精査しなければならないタイトルと抄録の数が膨大であることなどにより、完了までにかなりの人手とエネルギーを要してきました。近年、研究者はこのプロセスをより効率化するために、大規模言語モデル(LLM)を活用する方法を探り始めています。しかし、これまでの研究では結果が一貫していません。私たちは、プロンプトだけでは、モデルが十分に良い性能を発揮するための文脈がモデル(群)に提供されないためであると考えます。本研究では、システマティックレビューの文脈における研究スクリーニングのために、1.2 billionパラメータの小規模なオープンウェイトLLMを特に微調整しました。このシステマティックレビューでは、人間が潜在的な採否のために8500件超のタイトルと抄録を評価しました。結果として、微調整済みモデルは微調整前の基盤モデルと比べて大幅な性能向上を示しました。重み付きF1スコアは基盤モデルに対して80.79%改善しました。8,277件の研究から成るデータセット全体で実行したところ、微調整済みモデルは人間のコーダーと86.40%の一致を示し、91.18%の真陽性率、86.38%の真陰性率を示し、複数回の推論実行において完全な一致が得られました。以上を総合すると、本研究は、大規模なシステマティックレビューにおけるタイトルおよび抄録スクリーニングのためにLLMを微調整することに有望性があることを示しています。