AI Navigate

臨床ノートから患者のヘルスリテラシー情報を識別するためのデータセットとリソース

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • HEALIX は、実臨床ノートに由来する公開済みの最初の注釈付きヘルスリテラシー・データセットで、9種類のノートタイプにまたがる589ノートから構成され、ヘルスリテラシーが低い・通常・高いの3段階でラベル付けされている。
  • このデータセットは、ソーシャルワーカーのノートのサンプリング、キーワードベースのフィルタリング、および LLM を用いたアクティブ・ラーニングの組み合わせによって厳選され、品質の高い注釈を保証している。
  • 有用性を検証するため、著者らは4つのオープンソースLLMに対してゼロショットおよびFew-shot promptingをベンチマークした。
  • 本研究は、非構造化の臨床ノートからヘルスリテラシー情報を自動検出できるようにすることを目的とし、構造化電子カルテにおけるヘルスリテラシーの文書化の課題に対処し、患者アウトカム研究および臨床ワークフローの改善の可能性を示唆している。

Abstract

ヘルスリテラシーは患者のアウトカムを決定づける重要な要因ですが、現行のスクリーニングツールは必ずしも実用的とは限らず、項目数、質問形式、およびヘルスリテラシーを捉える次元が大きく異なるため、構造化された電子カルテ(EHR)での記録を困難にしています。非構造化臨床ノートからの自動検出は有望な代替手段を提供します。これらのノートには、より豊富で文脈的なヘルスリテラシー情報が含まれていることが多いですが、注釈付きリソースの不足により進展は限られています。我々はHEALIXを紹介します。実臨床ノートから派生した最初の公開可能な注釈付きヘルスリテラシー・データセットで、ソーシャルワーカーのノートサンプリング、キーワードベースのフィルタリング、LLMベースのアクティブラーニングを組み合わせてキュレーションしました。HEALIXには9種類のノートタイプにわたる589ノートを含み、低・標準・高の3つのヘルスリテラシーラベルで注釈されています。その有用性を示すため、4つのオープンソース大規模言語モデル(LLMs)を対象に、ゼロショットおよび少数ショットのプロンプティング戦略をベンチマークしました。