要旨: 自動睡眠ステージングは専門家レベルの精度を達成している一方で、監査可能な推論の欠如により臨床導入が妨げられています。本研究では、American Academy of Sleep Medicine(AASM)の採点基準に基づく、臨床医が読める根拠(rationale)を生成しながら、多チャンネルのポリソムノグラフィ(PSG)波形画像から睡眠をステージングするための、ルールに基づくビジョン・ランゲージモデル(VLM)であるSleepVLMを提案します。波形知覚に基づく事前学習と、ルールに基づく教師あり微調整を用いることで、SleepVLMは、保持したテストセット(MASS-SS1)でCohenのκ(カッパ)スコア0.767、外部コホート(ZUAMHCS)で0.743を達成し、最先端の性能と同等でした。さらに、専門家による評価によりモデルの推論品質が検証され、事実の正確さ、エビデンスの網羅性、論理的な整合性のいずれについても平均スコアが4.0/5.0を上回りました。競争力のある性能と、透明でルールベースの説明を組み合わせることで、SleepVLMは臨床ワークフローにおける自動睡眠ステージングの信頼性および監査可能性を向上させる可能性があります。解釈可能な睡眠医学に関するさらなる研究を促進するため、専門家が注釈付けした新しいデータセットであるMASS-EXを公開します。
SleepVLM:視聴覚言語モデルによる、説明可能かつルールに基づいた睡眠ステージング
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SleepVLMは、多チャンネルのポリソムノグラフィ(PSG)波形画像から自動的に睡眠ステージングを行う、ルールに基づいたビジョン言語モデルとして提案されており、AASMスコアリング基準に結び付いた、医師が読める根拠(rationale)も生成します。
- この手法は、波形の知覚に即した事前学習(waveform-perceptual pre-training)と、ルールに基づく教師あり微調整(rule-grounded supervised fine-tuning)を組み合わせることで、予測精度とモデル判断の監査可能性の両方を向上させます。
- SleepVLMは、MASS-SS1でCohenのカッパ0.767、外部コホート(ZUAMHCS)で0.743を達成し、最先端の睡眠ステージング性能に匹敵します。
- 専門家による評価では、生成された説明の品質が高いことが示されており、事実の正確性、エビデンスの網羅性、論理的な一貫性の各項目で平均スコアが4.0/5.0を超えています。
- 著者らは、専門家が注釈付けしたリソースであるMASS-EXデータセットを公開しており、解釈可能な睡眠医学に関するさらなる研究を支援することを目的としています。



