Abstract
心電図(ECG)や脳波(EEG)信号のような医療時系列(MedTS)から、意味のある表現を学習することは重要な課題である。これらの信号は、しばしば高次元で、長さが可変であり、ノイズに満ちている。マスク付き自己符号化器(Masked Autoencoders, MAE)に代表される既存の自己教師ありアプローチは、汎用エンコーダの事前学習に対して非常に有効である。しかし、それらは、コンパクトで意味的に解釈可能な潜在表現を明示的には学習しない。典型的には、グローバル平均プーリングや、指定された[CLS]トークンといった経験的な集約戦略に依存している。そこで本研究では、可変長のMedTSを固定サイズのk個の潜在「フィンガープリント・トークン」の集合へと圧縮する新しい枠組みを提案する。本アーキテクチャでは、これらのトークンを生成するためにクロス注意ボトルネックを用い、二重目的関数で学習する。第1の目的は再構成損失であり、トークンが元データに対する extit{十分統計量}であることを保証する。第2の目的は、Total Coding Rate(TCR)に基づく多様性ペナルティであり、トークン間の冗長性を明示的に最小化して、それらが統計的に extit{分離された}表現になることを促す。本手法を理論的に正当化し、新たな extbf{Disentangled Rate-Distortion}問題として定式化する。これにより、低次元で解釈可能、かつサンプル効率の高い表現が得られる。各トークンは、変動の独立した因子を捉えることが奨励され、より頑健なデジタルバイオマーカーへの道を拓く。