CGM情報に基づく糖尿病カウンセリングにおける大規模言語モデルと臨床医作成回答のブラインド多評価者比較評価

arXiv cs.CL / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この研究では、CGMのパターンを平易な言葉で説明し、糖尿病のカウンセリング支援を行うリトリーバルに基づく大規模言語モデルの会話エージェントを評価している。
  • ブラインドの多評価者設計で12件のCGM事例を用い、臨床医がLLMの生成回答と臨床医が作成した回答を6つの品質指標に沿って独立に採点した。
  • LLMベースの回答は臨床医作成回答よりも全体で有意に高いスコアを示し、とりわけ共感性と実行可能性で大きな改善が見られた。
  • 安全性については両者で分布が同程度であり、大きな懸念はどちらも非常に稀だった。
  • 著者らは、リトリーバル型LLMが教育や受診前の準備の補助として有用になり得る一方、自律的な治療判断や無監督の実運用は支持しないとしている。