概要: プライバシー規制と、有害なデータの影響を軽減する必要性に動機づけられて、機械アンラーニングは、学習済みモデルを変更して、指定されたデータを効果的に「忘れる」ようにすることを目指します。アンラーニングの検証における重要な課題は emph{偽造} であり、すなわち、標的点の勾配を模倣するように敵対的にデータを作り込み、それによって実際には情報を除去せずにアンラーニングが行われたような見かけを作ることです。この現象を捉えるために、許容差 epsilon の範囲で、標的勾配を近似する勾配を持つデータ点の集合を考えます。これを epsilon-偽造集合( epsilon-forging set)と呼び、その解析のための枠組みを開発します。線形回帰および1層のニューラルネットワークにおいて、この集合のルベーグ測度が小さいことを示します。これはオーダーとして epsilon でスケールし、 epsilon が十分に小さいときは epsilon^d になります。より一般に、弱い正則性仮定の下で、偽造集合の測度は epsilon^{(d-r)/2} のように減衰することを証明します。ここで d はデータの次元であり、r<d は、モデル勾配によって定義される変動行列における「小さい」特異値に対応する右特異ベクトル空間の次元です。バッチSGDおよびほぼ至る所で滑らかな損失関数への拡張でも、同じ漸近スケーリングが得られます。さらに、非縮退なデータ分布の下で、ランダムに偽造点をサンプリングする確率が、消えゆくほど小さいことを示す確率的な評価(確率境界)を確立します。これらの結果は、敵対的な偽造が根本的に本質的に制限されており、誤ったアンラーニング主張は原理的には検出可能であることを示す証拠を与えます。
欺瞞の尺度:機械アンラーニングにおけるデータ改ざんの分析
arXiv stat.ML / 2026/5/5
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、機械アンラーニングにおける「forging(改ざん)」を扱い、悪意ある攻撃者が標的点の勾配に似せたデータを作ることで、モデルがそのデータを忘れたように見せかける現象を分析します。
- 著者らは、許容誤差 ε の範囲で勾配が目標勾配に近づくデータ点の集合を定義し、それを「ε-forging set(ε改ざん集合)」として定式化します。
- 線形回帰と1層ニューラルネットワークでは、この改ざん集合のルベーグ測度が小さいことを示し、概ね ε に比例してスケールし、εが十分小さい場合は ε^d になることを証明します。
- さらに、緩い正則性条件のもとで、バッチSGDやほぼ至る所で滑らかな損失関数も含めて、改ざん集合の測度が ε^((d−r)/2) のように減衰することを一般化して示します。
- そのうえで、非退化なデータ分布の下では改ざん点をランダムにサンプリングする確率が極めて小さいという確率的な境界も提示し、原理的には誤ったアンラーニング主張の検出が可能であることを示唆します。