要約:
機械的な忘却(マシン・アンラーニング)は、臨床言語モデルにとってますます重要になっており、プライバシー規制や機関の方針により、スクラッチから再学習を行わずにデプロイ済みのシステムから機微情報を削除する必要がある場合があります。実務上、削除リクエストは対象情報の効果的な忘却と、モデルの有用性の保持および最小限のパラメータ変更とのバランスを取らなければなりません。私たちはSparse Token Embedding Unlearning(STEU)を紹介します。これは、PMIで選択されたトークン埋め込みのみを更新し、小さな分類ヘッドとともに更新する、エンコーダ層をすべて凍結したまま行う、パラメータ効率の高い挙動クラスレベルの忘却手法です。BioClinicalBERT、BERT-base、DistilBERTを用いたMIMIC-IV、MIMIC-III、eICUの実験全体を通じて、STEUはターゲットクラスを一貫して抑制しつつ、保持されたタスク性能を大部分維持します。主要なMIMIC-IV設定では、STEUはほぼ完全な忘却を達成し(忘却F1 = 0.0004)、同時に競争力の高い保持有用性を維持します(保持平均F1 = 0.4766)、モデルパラメータの0.19%のみを変更した状態です。これらの結果は、深いエンコーダ表現を変更せずに、疎な埋め込み編集を通じてターゲットを限定した挙動忘却を達成できることを示唆しています。
臨床向けクラスレベル忘却のためのパラメータ効率的トークン埋め込み編集
arXiv cs.AI / 2026/3/23
📰 ニュースModels & Research
要点
- STEU は、臨床用言語モデルに対するパラメータ効率的な手法で、PMI に基づいて選択されたトークン埋め込みと小さな分類ヘッドのみを更新することでクラスレベルの忘却を実現し、すべてのエンコーダ層を凍結したままにする。
- MIMIC-IV でほぼ完全な忘却を達成(忘却F1値 0.0004)し、約0.19%のパラメータを変更するだけで保持されたタスク性能(平均 F1 値 0.4766)を維持する。
- このアプローチは、BioClinicalBERT、BERT-base、DistilBERT を用いて MIMIC-IV、MIMIC-III、eICU のデータセット全体で評価され、一貫した忘却と最小限の有用性低下を示した。
- この研究は、より深いエンコーダ表現を変更することなく、スパースな埋め込み編集を用いてターゲットを絞った挙動の忘却を実現できることを示唆しており、プライバシー保護を備えたモデルの保守を提供する。



