プライバシーは常に公正性を損なうのか?チェルノフ情報によるデータ依存のトレードオフのニューラル推定

arXiv stat.ML / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、公正性とプライバシーが機械学習の成果にどのように同時に影響するかを研究し、チェルノフ情報を情報理論的な尺度として用いることで、そのトレードオフが根本的にデータ分布に依存することを示す。
  • 「Chernoff Difference」(データの公正性)と、そのノイズを考慮に入れられる「Noisy Chernoff Difference」変種を導入し、公正性とプライバシーを統一的に分析できる枠組みを提示する。
  • 単純なガウス分布の例を用いて、提案指標は基となるデータ分布に応じて、質的に異なる3つの挙動を示すことを著者らが特定する。
  • 既知の分布を仮定せずに実データセットを解析するために、本論文は「Chernoff Information Neural Estimator(CINE)」を提案する。これは、未知の分布に対するチェルノフ情報の初めてのニューラルネットワークに基づく推定器として説明されている。
  • CINEを実世界のデータセットに適用し、「Noisy Chernoff Difference」を評価することで、公正性とプライバシーの相互作用を理解し特徴づけるための、原理に基づいた枠組みの提供を目指す。

Abstract

公平性とプライバシーは、信頼できる機械学習を支える2つの重要な柱である。これらの個別のトピックについては広範な研究がなされてきた一方で、その関係性には十分な注目が払われてこなかった。本論文では、情報理論的な尺度であるチェルノフ情報(Chernoff Information)を用いて、入力データ分布によって生じる公平性、プライバシー、精度の間の基本的なトレードオフを特徴づける。我々はまず、データの公平性に関する概念としてチェルノフ差(Chernoff Difference)を提案し、さらに公平性とプライバシーの双方を同時に解析できる、そのノイズ付き変種であるノイズ付きチェルノフ差(Noisy Chernoff Difference)を導入する。単純なガウス例を通じて、ノイズ付きチェルノフ差が、基となるデータ分布に応じて、定性的に異なる3つの振る舞いを示すことを明らかにする。合成設定を超えてこの分析を拡張するために、未知の分布に対するチェルノフ情報の最初のニューラルネットワークベース推定器であるチェルノフ情報ニューラル推定器(Chernoff Information Neural Estimator: CINE)を開発する。実データセットに対してCINEを適用し、ノイズ付きチェルノフ差を解析する。これら一連の取り組みにより、公平性とプライバシーの相互作用を、原理に基づきかつデータに依存して特徴づけることで、文献における重要なギャップを埋める。