双極性障害の攪拌検出におけるオンデバイスの特性・状態分離のためのミックス精度情報ボトルネック

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、MP-IBという枠組みを提案し、混合精度量子化を「情報ボトルネック」として扱うことで、資源制約のあるエッジデバイス上で話者の安定した特性と攪拌のような変動する感情状態を分離することを目指します。
FP16の特性ヘッド（1,024ビット）とINT4の状態ヘッド（128ビット）を用いた情報非対称性の設計により、数値精度そのものが符号化できる要因を制御し、敵対的学習なしで分離を抑える工夫が示されています。
さらにDynamic Precision SchedulingとMulti-Scale Temporal Fusionを組み合わせ、臨床的な特性・状態分離の性能を高めます。
Bridge2AI-Voice（N=833、厳密な話者非依存CV）でrho=0.117（p=0.003、偶然から有意）を達成し、複数のベースラインに対して2.8〜15.9点の絶対値で上回り、CREMA-Dへのゼロショット転移でもAUC=0.817を示します。
身元情報の漏えいはほぼランダムに抑制されつつ、23.4 msのエンドツーエンド遅延と約617 KBのフットプリントを実現し、低価格デバイスでのリアルタイム監視に適用可能です。

要旨: 音声バイオマーカーによる双極性障害の興奮の継続モニタリングには、リソースが限られたエッジデバイス上で、安定した話者特性と揮発性の情動状態を切り離す必要がある。私たちは、臨床的な特性・状態の分離において、混合精度量子化を情報ボトルネックとして扱う最初の枠組みであるMP-IBを提案する。中核となる洞察は、数値精度そのものが容量を制御するという点である。FP16の特性ヘッド（1,024ビット）は話者の同一性を符号化し、一方でINT4の状態ヘッド（128ビット）は興奮を捉え、敵対的学習なしで8倍の情報非対称性を生み出す。これをDynamic Precision SchedulingとMulti-Scale Temporal Fusionで拡張する。Bridge2AI-Voice（N=833、参加者あたり4セッション、厳格な話者非依存CV）において、MP-IBはrho = 0.117（95\% CI: [0.089, 0.145], p=0.003、偶然より有意）を達成し、ドメイン内のSSL継続を伴う94MパラメータのWavLM-Adapter（rho = -0.042）、beta VAEの分離（rho = 0.089）、および手作りの韻律特徴（rho = 0.031）を絶対値で2.8〜15.9ポイント上回る。CREMA-Dへのゼロショット転移ではAUC=0.817。アイデンティティのリークは、ほぼランダムな水準に抑制され（EER=0.42、MIA-AUC=0.52）、エンドツーエンド遅延は617 KBのフットプリントで23.4 msとなる。これにより、20ドル未満のデバイスでのリアルタイム・モニタリングが可能になる。