生成される臨床コンテンツにおける患者安全リスクの評価:FMECAフレームワークの開発と検証

arXiv cs.AI / 2026/5/7

💬 オピニオンModels & Research

要点

  • 本研究は、LLMが生成する臨床テキストに関する患者安全リスクを体系的に評価するための構造化手法の不足を背景に、生成サマリーに適合させたFMECAベースのアプローチを提案する。
  • 院横断の専門家パネルが、14の失敗モードの分類体系を作成し、FMECAの主要指標(発生、重大度、検出可能性)を5段階の順序尺度に適合させてリスクをスコア化した。
  • フレームワークは、ジュネーブ大学病院の実データを用いてオープンLLM(GPT-OSS 120B)で生成した退院サマリー36件(4患者分)を対象に、複数ラウンドでレビューアが注釈付けする形で検証された。
  • その結果、注釈ラウンド間で評価者間一致が向上し、失敗モード同定は中程度〜実質的な一致、重大度・検出可能性のスコアは良好な一致を示した。
  • ユーザビリティと内容妥当性も支持され、適応したSUS(System Usability Scale)で平均79.2/100を得て、評価者の高い自信が報告された。

要旨: 目的: 大規模言語モデル(LLM)は臨床テキストの要約にますます用いられているが、それに関連する患者安全リスクを評価するための構造化された方法は依然として限られている。故障モード、影響、およびクリティカリティ分析(FMECA)は、体系的なリスク同定のための先行的な枠組みを提供するが、LLMが生成した臨床コンテンツには適用されていない。本研究の目的は、LLMが生成する臨床サマリーにおける患者安全リスクを前向きに評価するための新規FMECA枠組みを開発し、検証することである。
材料と方法: 学際的な専門家パネル(n = 8)が、文献レビューとブレインストーミングを通じて故障モードの分類法を作成した。標準的なFMECAの次元(発生度、重症度、検出度)を5段階の順序尺度に適応した。この枠組みを、公開LLM(GPT-OSS 120B)により、ジュネーブ大学病院の実臨床データを用いて生成した、4人の患者からの36件の退院サマリーに適用した。査読者は2ラウンドにわたりサマリーに独立に注釈を付与した。評価者間信頼性は、故障モード、重症度、および検出度スコアの水準で評価した。ユーザビリティおよび内容妥当性は、適応したシステムユーザビリティスケールおよび構造化されたフィードバックを用いて評価した。
結果: 最終的な枠組みは、カテゴリーに整理された14の故障モードで構成された。評価者間の一致はラウンド間で改善し、故障モード同定では中等度から実質的な一致、重症度および検出度のスコアリングでは良好な一致が得られた。ユーザビリティは良好と評価され(平均SUS: 79.2/100)、評価者の自信が高かった。
考察と結論: 本研究は、LLMが生成した臨床サマリーに対する体系的な患者安全リスク評価のための、最初のFMECAベースの枠組みを提示する。この枠組みは、これらのサマリーによって生じる臨床的に関連するリスクを同定するための、構造化され再現可能な方法を提供する。