Abstract
機械学習(ML)の利用はさまざまな領域でますます普及しており、その安全性を理解し、確実にすることの重要性が高まっています。差し迫った懸念の1つは、MLアプリケーションがモデル窃取攻撃に対して脆弱であることです。これらの攻撃では、クラウドベースのサービスやオンチップの人工知能インタフェースなどで見られるような、限られたクエリと応答のやり取りを通じて学習済みモデルを回復しようとする敵対者が現れます。既存の文献では、さまざまな攻撃および防御の戦略が提案されていますが、それらの多くは理論的な基盤や標準化された評価基準を欠いています。そこで本研究は、「Model Privacy」と呼ばれる枠組みを提示し、モデル窃取攻撃と防御を包括的に分析するための基盤を提供します。脅威モデルと目的に対して厳密な定式化を確立し、攻撃および防御戦略の良さを定量化するための手法を提案するとともに、MLモデルにおける有用性とプライバシーの基本的なトレードオフを解析します。構築した理論は、特に効果的な防御のためには摂動の攻撃固有の構造が重要であることを強調しつつ、MLモデルのセキュリティを高めるための有益な洞察を提供します。さまざまな学習シナリオにおいて、防御者の観点からモデルプライバシーの適用を示します。大規模な実験により、これらの洞察と、本提案枠組みに基づいて開発された防御メカニズムの有効性が裏付けられます。