SemioLLM:てんかんの非構造化臨床ナラティブから診断推論を評価する大規模言語モデルの検証
arXiv cs.CL / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SemioLLMの研究では、8つの大規模言語モデルを、てんかんの診断推論タスクで評価します。具体的には、非構造化の臨床ナラティブに含まれる発作の記述フレーズを、もっともらしさ(likelihood)の推定に基づいて7つの発作発現ゾーンのいずれかへ対応付けます。
- 結果として、プロンプトエンジニアリングと、臨床家が導くチェーン・オブ・ソート(思考の連鎖)風の推論を行うことで、いくつかのモデルが、正解(グラウンドトゥルース)と一致することが多い性能を達成でき、臨床家レベルの精度に近づけることが示されます。
- モデルの性能は、臨床的なインコンテキストでの擬態(in-context impersonation)、ナラティブの長さ、言語コンテキストなどの要因によって強く影響を受け、条件間で顕著なパーセンテージの変動が生じます。
- 推論出力に対する専門家レビューでは、正しい予測であっても、幻覚的な知識に依拠したり、不正確な出典の引用を行ったりすることがあり、臨床導入に向けた解釈可能性と信頼性のギャップが浮き彫りになります。
- 本論文は、自由記述のナラティブ内に診断情報が埋め込まれている臨床現場に適した、スケーラブルで領域適応可能な評価フレームワークとしてSemioLLMを提案します。




