PrivSTRUCT:Google Playストアのプライバシーポリシーにおけるデータ目的のコンプライアンスを解きほぐす

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、プライバシーポリシーを平文として扱うことが、自動抽出で異なるデータ実践を混同させ、とりわけセンシティブなデータ項目と目的の紐づけで問題を引き起こすと主張している。
  • PrivSTRUCTという構造を保ったエンコーダ–デコーダの枠組みを提案し、文書の論理階層(見出しなどの構造手がかり)を保持しつつ、データ項目と目的の情報を抽出することを目的としている。
  • 最先端のツールであるPoliGrapherとの比較では、PrivSTRUCTがデータ項目と目的の抜粋を2倍以上抽出でき、かつ開発者が定義した構造的手がかりも維持できることが示された。
  • 3,756件のAndroidアプリにPrivSTRUCTを適用した分析では、透明性のギャップとして、開発者が「局所的にスコープされた記述」ではなく「グローバルに定義された目的」を用いる場合に、データ目的を過大に説明する確率が高いことが明らかになった(一次収集で20.4%増、第三者への共有で9.7%増)。
  • さらに、第三者のセンシティブなデータフロー(例:分析目的での金融データの共有)が、一般的または無関係なカテゴリに薄められ、絡み合う形で表れていることが報告されており、現行の目的開示の課題が継続していることが示唆されている。

概要: 既存の研究では、プライバシーポリシーを通常、フラットで一様なテキストとして扱い、文書の論理的階層を考慮せずに情報を抽出することが多いです。読者を導くために設計されたセクション見出しの構造的手がかりを無視すると、自動化手法が、特に機微なデータ項目をそれぞれの目的に結び付ける際に、異なるデータ実践を絡めてしまうことがよく起こります。これに対処するために、私たちは、複雑なプライバシー開示を解きほぐすための、新規かつ体系的なエンコーダおよびデコーダを組み合わせた枠組みである PrivSTRUCT を提案します。最先端のツール PoliGrapher とベンチマークを行った結果、PrivSTRUCT は、開発者が定義した構造的手がかりを保持しつつ、データ項目と目的の抜粋について x2 以上の件数を頑健に抽出できることが分かりました。さらに、PrivSTRUCT を 3,756 の Android アプリからなる大規模データセットに適用したところ、重大な透明性のギャップが明らかになりました。開発者が、特定のローカルな開示ではなく、グローバルに定義された目的に依拠している場合、開発者がデータの目的を過大に述べる確率は、第一者による収集では 20.4% 高く、第三者への共有では 9.7% 高いのです。憂慮すべきことに、分析のための財務データの共有のような機微な第三者データフローが、しばしば希釈され、一般的または無関係なカテゴリに絡め取られていることを私たちは見出しました。これは、現在の目的開示の状況における持続的な失敗を示しています。