オープンソースのLLMを微調整するときは注意:微調整データがこっそり盗まれる可能性があります!
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、オープンソースLLMの作成者が、微調整済みの下流モデルに対してブラックボックスでしかアクセスできない場合でも、バックドア学習を用いることで、後から下流の微調整データセットを抽出できることを示しています。
- 4つのオープンソースLLM(3B〜32Bパラメータ)と2つの下流データセットにまたがる実験により、高い抽出有効性が報告されています。実運用に近い状況では、クエリの最大76.3%を完全に抽出できました。
- より理想的な条件では、成功率は94.9%まで上昇しており、機密の自社プロプライエタリデータを用いて微調整すると脅威が深刻になり得ることを示しています。
- 著者らは検出ベースの防御策を試しましたが、攻撃側の改良により回避できることが分かり、現在の緩和策が不十分である可能性が示唆されます。
- 再現性のためにコードとデータを公開し、この新たに特定された「微調整におけるデータ漏えいリスク」への対処には、フォローアップ研究が必要であることを強調しています。



