GDPRとAIトレーニングデータ:個人データで学習する前に知っておくべきこと

Dev.to / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • GDPRは、データセットに個人データが含まれている、または(再)特定を可能にし得る場合には、そのデータが明示的に個人データとしてラベル付けされていなくても、また「匿名化」されているように見えても、AIの学習データに適用され得ます。
  • 個人データでの学習はGDPR上「処理(processing)」として扱われ、適法な根拠、データ最小化、保存期間の上限、消去を含むデータ主体の権利への対応といった中核的な義務への適合が必要になります。
  • AI学習に関するGDPRの第6条の適法な根拠は実務上厳しく精査されており、一般的な用語や遡及的な同意(後付けの同意)だけでは不十分なことが多いです。なぜなら同意は、個別具体的で、目的ごとの粒度(purpose-granular)を満たす必要があるからです。
  • 記事は、執行の勢いが増していることを警告しており、EU AI Act(欧州AI法)によってGDPRに加えて重複する義務が課される可能性があるため、後からの是正対応よりも早期のコンプライアンスの方が費用対効果が高いと述べています。
  • 本記事は、2026年にスケールした規模で学習を行う前に「何を知る必要があるのか」という観点で、コンプライアンス志向のガイドとして位置付け、規制当局や捜査当局が注目するのは実世界でのAIデータ運用だと強調しています。

実世界のデータで学習するAIプロダクトを構築しているなら、避けられない疑問があります。そのデータには、特定可能な個人に関する個人情報が含まれているのでしょうか?答えが「はい」(たとえ部分的であっても)なら、あなたはGDPRの管轄の中で事業を行っており、多くのチームが考えているよりも規則は厳格です。

EUの個人データ保護の枠組みは、機械学習を念頭に設計されたものではありません。しかし、それは適用されます。規制当局はAI学習の実務を積極的に調査しており、執行措置は積み上がっています。さらにEU AI Actは、義務の重なり合う層を追加します。大規模に学習を始める前に正しく対応することは、その後に修正するよりも大幅に安く済みます。

このガイドでは、個人データを用いてAIモデルを学習する際に適用される主要なGDPRの義務と、2026年における準拠した実務がどのようなものかを解説します。

学習データがGDPRの論点になる理由

GDPRにおける個人データの定義は広範です。すなわち、特定された、または特定可能な自然人に関連するあらゆる情報です。これは、氏名やメールアドレスだけではありません。

ウェブスクレイピング、顧客とのやり取り、サポートチケット、医療記録、ユーザー生成コンテンツ、行動ログなどから作られた学習データセットには、ほぼ確実に個人データが含まれます。たとえ匿名化されているように見えるデータセットであっても、そうではないことがあります。再識別攻撃によって、補助情報を使えば「匿名化されたはず」の記録が個人に紐づけられることが示されています。

重要なのは、あなたのデータセットが「個人データ」としてラベル付けされているかどうかではありません。自然人がそこから、直接的または他のデータと組み合わせることで、合理的に特定できるかどうかです。答えが「はい」(あるいは「可能性がある」でも)なら、学習目的のためにそのデータを収集・保管・処理することにGDPRが適用されます。

学習は「処理」です。個人データで学習ジョブを実行することは、GDPR第4条(2)における処理活動に当たります。つまり、合法的根拠が必要であり、データ最小化の要件を満たす必要があり、保管期間の上限を尊重する必要があり、消去を含むデータ主体の権利に関する要求へ対応できなければなりません。

AI学習に個人データを用いるための合法的根拠

GDPR第6条は、あらゆる処理活動には合法的根拠が必要であることを定めています。AI学習では、最も一般的に検討される根拠は次のとおりです:

同意

データ主体が明示的に、自分のデータがAI学習に使われることに同意している場合、根拠は明確です。問題は、同意が具体的で、十分に情報提供された上で、自由意思に基づき、かつ曖昧でないものである必要があることです。たとえば「サービスを改善するためにあなたのデータを使う場合があります」といった一般的な条項では、ユーザーデータを用いたAIモデルの学習はほぼ確実にカバーされません。Article 29 Working Party とその後継組織であるEDPBは、目的の特定(purpose specification)は粒度をもたせる必要があることを明確にしています。

遡及的な同意(既存ユーザーに対してAI学習の同意を求めること)は、大規模に取得するのが難しく、取り入れ率が低くなりがちです。

正当な利益

GDPR第6条(1)(f)における「正当な利益」は、同意が現実的でないときに、多くの組織が採用しがちな根拠です。ここでは、3つの要件を満たす必要があります。すなわち、正当な利益が存在し、処理が必要であり、そしてデータ管理者の利益がデータ主体の権利および利益によって上書きされないことです。

正当な利益に関するEDPBのガイダンス(正当な利益の法的根拠に関する意見1/2024)は、必要性および衡量(バランシング)のテストは厳格に実施しなければならないことを明らかにしています。単に「モデル改善は正当な利益だ」と主張するだけでは要件を満たしません。

AI学習という観点では、特に衡量テストが難しくなることが多いです。データ主体は通常、自分のやり取りがAIシステムの学習に使われることを期待していません。処理は多くの場合、相当な規模で行われます。そして、学習済みモデルの下流での利用は予測できないことがあります。これは、衡量評価を誠実に実施するのをより困難にします。

公共の利益および研究に関する免除

第6条(1)(e)は、公共の利益のために行われるタスクの遂行に必要な処理を対象としています。第9条(2)(j)は、科学研究目的のための特別カテゴリーデータの処理を行う根拠を定めています。学術機関や医療研究機関は、商業組織よりもこれらの規定のもとで柔軟性が高い一方、免除であっても適切な保護措置がなお必要です。

ICOの「AIとデータ保護」に関するガイダンスは、多くのケースで商業用AI開発が研究に関する免除の対象として適格になる可能性は低いと述べています。

これが実務で意味すること

ほとんどの商用AIプロダクトにとって、既存の個人データで学習するために「きれいな」合法的根拠を確立することは、次のいずれかがない限り難しいというのが、正直な答えです:

  • 収集時点でAI学習を見据えた形で、具体的な同意を得ている
  • 文書化された分析に基づいて、正当な利益の衡量テストを本当に満たせる
  • 合成データ、または十分に匿名化されたデータをベースにしている

消去権の問題:機械的アンラーニング

GDPR第17条は、データ主体が自分の個人データの削除を請求する権利を与えています。通常のデータ処理においては、削除とはデータベースやバックアップから記録を取り除くことを意味します。しかし、AI学習データでは事情がより複雑になります。

個人データがモデルの学習に使われた場合、そのデータはモデルの重み(weights)に埋め込まれます。学習記録を削除することはできても、モデルはすでにその内容から学習しています。いくつかの研究者は、大規模言語モデルから、特定の問い合わせ(ターゲットクエリ)によって、学習データ(特定の個人情報を含む)が抽出できることを示してきました。

この課題に対処しようとする技術分野が機械的アンラーニング(machine unlearning)です。アンラーニングの手法は、全モデルを最初から作り直して再学習することなく、特定の学習例の影響を取り除くためにモデルの重みを調整することを目指します。この分野は急速に進歩していますが、ほとんどのプロダクション向けレベルのアンラーニング手法は、依然として計算コストが高く、完全ではなく、検証が難しいのが現状です。

規制当局は、学習済みモデルの文脈で「消去」とは具体的に何を意味するのかについて、まだ詳細なガイダンスを出していません。実務上のリスクは、データ主体が消去請求を提出し、あなたが学習記録を削除したことを示せたとしても、モデルがその個人に関する情報を保持してしまうことにあります。それが法的に違反に当たるかどうかは未解決ですが、リスクは現実的です。

実務上の含意:

  • 各学習データセットにどの個人のデータが含まれているかを文書化し、消去請求に対応できるようにする
  • 収集から学習実行までのデータ系統(データリネージ)を追跡する仕組みを実装する
  • 必要に応じて最初から再学習できる、またはアンラーニング手法を適用できるように学習パイプラインを設計する
  • 特定のデータ主体のデータが含まれる前に学習したバージョンへロールバックできるよう、モデルのバージョニングを検討する

学習用データセットにおけるデータ最小化と匿名化

第5条(1)(c)では、個人データは「処理の目的との関係で、適切であり、関連性があり、必要な範囲に限られていなければならない」と要求しています。このデータ最小化の原則は、学習データにも他のあらゆる処理と同様に適用されます。

よくある違反:

  • モデルのタスクに必要な特定のフィールドだけで済むのに、ユーザーのレコード全体で学習してしまう
  • より短い保管期間で足りるのに、学習データを無期限に保持してしまう
  • モデルの目的にそれが不要なのに、機微なデータカテゴリ(健康、金融、政治的見解)を学習データセットに含めてしまう

は、GDPRの適用範囲を完全に外すためのゴールドスタンダードです。データが本当に匿名化されているなら――すなわち、そこから現在または将来にわたり、直接または間接的に個人を特定できないようにされているなら――そのデータは規制の範囲外に該当します。問題は、真の匿名化は、ほとんどのチームが想定するよりも達成が難しいことです。

ICOの匿名化に関するガイダンスは、匿名化は二値的な状態ではなく「スペクトラム(連続した段階)」であると強調しています。仮名化(識別子を仮名に置き換えること)は匿名化ではありません――仮名化されたデータは、GDPRの下で個人データのままです。集約は再識別のリスクを低減しますが、それをなくすわけではありません。差分プライバシーの手法は匿名化に関する数学的な保証を提供し得ますが、慎重な実装が必要です。

実務的な手順:

  • データセットを匿名化済みとして扱う前に、再識別リスク評価を実施する
  • 直接識別子(氏名、メール、ID)を除去するか、ハッシュ化する(ベースラインとして)
  • 準識別子(quasi-identifiers)について、抑制(suppression)、一般化(generalisation)、ノイズ追加を検討する
  • 機微なデータで学習したモデルを公開または提供する場合は、差分プライバシーを適用する
  • 匿名化の方法論とその限界を文書化する

合成データ:GDPRに配慮した代替手段

合成データ――実データの統計的性質を模倣しつつ、実際の個人情報を含まないよう人工的に生成されたデータ――は、個人データで学習することのGDPR対応として、ますます現実的な選択肢になっています。

このアプローチは、実データで生成モデルを学習し、それによって統計的に類似する合成レコードを生成することで構成されます。ただし合成レコードは、実在の個人に対応しません。次に、この合成データセットを下流(後段)のモデル学習に使用します。

利点:

  • 本当に個人データでない場合、GDPRの適用範囲外に該当する
  • データ主体の権利に関する論点を伴わずに、拡張(augmentation)・共有・保管ができる
  • 学習データで過小に表れている集団のバランス調整に利用できる
  • コンプライアンス文書化を大幅に簡素化できる

限界:

  • 品質は、基盤となる生成モデルに依存する。生成モデル自体も個人データで学習されなければならない
  • 合成データは、実データに含まれる希少な出来事やエッジケースを捉えられない可能性がある
  • 一部の下流タスクでは、実データの真正性が必要(不正検知、医療診断など)
  • 生成モデル自体は、GDPR上の義務の対象のままである

合成データは、コンプライアンス・ツールキットにおける「一つの手段」として理解するのが最適です。万能の解決策ではありません。しかし、多くのAI学習ユースケース――特に、一般的な領域のテキストで学習される大規模言語モデルを含む場合――では、意味のあるコンプライアンス上の道筋を提供します。

EU AI法(AI Act)との交差点

2024年から2026年にかけて段階的に適用されていくEU AI法は、GDPRと交差するものの、完全に同一ではない義務を追加します。

AI法の下では、高リスクAIシステム(雇用判断、信用スコアリング、教育、ならびに一定の公共部門での用途に用いられるシステムを含みます)は、次の要件を満たす必要があります:

  • 学習、検証、テストデータのガバナンス(第10条)
  • データ品質と代表性
  • バイアス(偏り)の検討
  • データの出所(provenance)に関する文書化

第10条は、特に、学習データセットについて「関連性があり、代表的で、誤りがなく、可能な限り完全であること」が求められ、さらに「適切なデータガバナンスおよび管理の実務」を適用することを要求しています。

AI法のデータガバナンス要件は、GDPRのデータ最小化、正確性、文書化の義務と大きく重なります――ただし同一ではなく、片方の枠組みに適合していることが、そのままもう片方への適合を意味するわけでもありません。高リスクAIの開発者は、両方の枠組みから要件を対応づける必要があります。

またAI法は、汎用目的のAIモデル(基盤モデルなど)の提供者に対して、使用された学習データの要約を公開することも求めており、これにより、IPやデータ保護に関する考慮事項と相互に作用する透明性の義務が生じます。

個人データで学習したAIを展開する際の透明性の義務

GDPRの透明性の原則(第5(1)(a)条)は、データ主体が自分のデータがどのように処理されているかを知る必要があることを求めています。個人データをAIの学習に使う場合、開示義務は2つの時点で発生します:

収集時: プライバシー通知には、データ主体に対し、自身のデータがAI学習に利用され得ること、法的根拠が何であるか、そして自身の権利が何であるかを知らせる必要があります。「サービス改善」のような一般的な説明では、十分でない可能性が高いです。

AIシステムを展開する時: あなたのAIシステムが個人に関する判断を行う、またはそれに影響を与える場合、その個人には、第22条(自動化された意思決定)に基づく権利と、関与するロジックに関する有意義な情報を受け取る権利があります。

個人データで学習されたAIでは、透明性は技術的にも難しい面があります。「ブラックボックス」モデルは、なぜモデルが特定の出力を生成したのかを説明しにくくします。規制当局は、しばしば実務上は困難である完全なアルゴリズムの透明性を求めることに慎重でしたが、それでも「有意義な説明」が期待されることには変わりありません。

さらにAI法は別の義務を追加しています。顧客向けの文脈でAIシステムとやり取りする自然人には、それが明らかでない限り、自分がAIとやり取りしていることを知らせる必要があります。

実務的なコンプライアンス手順

GDPRに準拠したAI学習の実務を構築することは、単発の作業ではありません。コンプライアンスを、データおよびMLエンジニアリングのワークフローに組み込む必要があります。

ステップ1:既存の学習データセットを監査する。 どの個人データが存在し、どの情報源から取得され、どの法的根拠のもとで、どの同意文言で収集されたのかを特定します。これは多くの場合、最も示唆に富むステップです――多くのチームが、データの出所が不確かな学習データを発見します。

ステップ2:学習の前に、法的根拠を確立する。 学習実行(トレーニングラン)において個人データの処理の法的根拠を明確に説明できないのであれば、説明できるまで先に進まないでください。学習済みモデルに対して後からコンプライアンスを当てはめるのは、最初から組み込むよりもはるかに難しいからです。

ステップ3:データ系統(データリネージ)追跡を実装する。 どの個人のデータが、どの学習実行に投入されたのかを把握します。これは、削除(消去)の要請に対応するため、また規制当局にコンプライアンスを示すために不可欠です。

ステップ4:学習データの保存ポリシーを文書化する。 学習データセットはどれくらいの期間保持する必要がありますか? 学習ログは? モデルのチェックポイントは? 保存期間を定義し、自動削除を実装します。

ステップ5:プライバシー通知を更新する。 顧客またはユーザーデータを学習している場合、プライバシー通知にはそれを開示する必要があります。文言の具体性を見直してください――「サービスを改善すること」は、「あなたのやり取りデータで機械学習モデルを学習すること」と同じではありません。

ステップ6:DPIAを実施する。 データ保護影響評価(DPIA)は、第35条により、個人の権利および自由に対して高リスクをもたらす可能性が高い処理について必須です。個人データを大規模にAI学習することは、ほぼ確実にこれに該当します。リスクと、その軽減策(ミティゲーション)を文書化してください。

ステップ7:高リスクの学習では、合成データまたは差分プライバシーを検討する。 機微なデータカテゴリを含む学習セット、または大規模で行う学習では、実際の個人データを使用する場合のコンプライアンス上の負荷が、合成の代替案と比べて得られる便益を上回る可能性があります。

まずはあなたのWebサイトから

準拠したAIシステムを構築する前に、あなたがすでに収集し処理している個人データが何かを理解する必要があります。これには、あなたのウェブサイト上で動作しているトラッカー、分析(アナリティクス)、およびサードパーティのスクリプトが含まれます。

https://app.custodia-privacy.com/scan で無料スキャンを実行し、同意前に個人データを収集しているかどうか、また現在のGDPRに対するリスク(エクスポージャー)がどのように見えているかを確認してください。これは、データ処理活動の全体像を把握するための最初の一歩です。

本記事は、GDPRおよびAIトレーニングデータのコンプライアンスに関する一般的な教育情報を提供するものです。法的助言を構成するものではありません。要件は、管轄区域、処理活動、および個別の状況によって異なります。あなたの状況に合わせた助言については、資格のあるデータ保護の専門家にご相談ください。