システマティックレビューのスクリーニングのための大規模言語モデルのファインチューニング
arXiv cs.CL / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、システマティックレビューのスクリーニングに対する従来のLLMアプローチで結果が一貫しなかった理由を調査し、強力な性能にはプロンプトだけでは十分な文脈が欠けていると主張する。
- 研究者らは、8,500件以上のレコードからなるデータセットにおける人手評価を用いて、タイトルおよび抄録のスクリーニング専用に、小規模な1.2B(12億)パラメータのオープンウェイトLLMをファインチューニングした。
- ファインチューニング後のモデルはベースモデルを大幅に上回り、重み付きF1スコアで80.79%の改善を達成した。
- 8,277件の全データセットにおいて、ファインチューニング後のモデルは人手によるコーダーと一致し、86.40%の一致率を示した。さらに、真陽性率91.18%、真陰性率86.38%を含んでいた。
- 著者らは、反復した推論実行において挙動が安定し、一致が完全であることを報告しており、大規模なシステマティックレビューのワークフローに対してファインチューニングが有望であると結論づけている。



