フィクションから得た規範的シミュラクラでLLMのプライバシー推論を強化する

arXiv cs.LG / 2026/4/24

💬 オピニオンModels & Research

要点

  • 本論文は、LLMのプライバシー取り扱いがユーザーの抱く「文脈に応じた」プライバシー期待としばしば食い違うとし、プライバシーを文脈相対的な情報フローとして定義する枠組みであるContextual Integrity(CI)を提案する。
  • 物語小説から「規範的シミュラクラ」(規範と情報フローを構造化して表した表現)を抽出し、教師あり学習の後にGRPO強化学習でLLMを微調整する手法を提案している。
  • 報酬は複合的に設計され、プログラム的な検査(タスク明確性、構造的完全性、内部整合性、文脈同定など)に加え、プライバシー推論が原文の「保持した規範的ユニバース」に基づいているかを評価するLLMジャッジを用いる。
  • 過学習を抑えるために、1つの回答ごとにコントラスト学習(正しい規範的ユニバースと、誤りとしてランダムに選んだ別ユニバースの両方で評価)を行い、文脈に条件付けすることを促してソース固有の規範の丸暗記を防ぐ。
  • 5つのCI整合ベンチマークでの実験では、GRPO+フィクション由来の規範的グラウンディングがSFT単独よりも法令順守ベンチマークで高得点になり、クラウドソーシングの人間のプライバシー期待との相関もより強いことを示している。

要旨: LLMエージェントの情報取り扱いの実践は、利用者が抱く文脈上のプライバシー期待と概ね不整合である。文脈整合性(CI)は、プライバシーを、文脈に相対的な規範の範囲内での情報の適切な流れとして定義するという、原理に基づいた枠組みを提供する。しかし、既存の手法は、監督者-アシスタント型アーキテクチャによって推論コストを二重に増やすか、あるいは狭いタスク固有データに対してファインチューニングするかのいずれかである。我々は、フィクション小説から規範の模擬物(規範と情報フローの構造化された表現)を抽出し、それを用いて、教師あり学習の後にGRPOによる強化学習を行うことでLLMをファインチューニングすることを提案する。我々の複合報酬関数は、タスクの明確さ(スキーマの妥当性、構成要素の弁別、抽出の確信度を包含する)、構造的完全性、内部整合性、文脈の同定といったプログラム的なシグナルに加えて、モデルのプライバシー推論が、出典テキストに保持された規範的ユニバース(規範の世界観)に基づいているかどうかを評価するLLMジャッジを組み合わせたものになっている。過学習を軽減するために、完了ごとの対照的スコアリングを導入する。各完了は、正しい規範的ユニバースと、ランダムに選ばれた誤ったユニバースの双方に対して評価される。これにより、モデルは出典固有の規範を暗記するのではなく、文脈に条件付けることを学習する。評価は、異なる社会的文脈にまたがる5つのCI整合ベンチマークで行い、RLと規範的基盤(normative grounding)の寄与をアブレーションする。7つのモデルにおいて、SFTは情報フローを制限することに対する保守的な事前傾向を導入し、プライバシーに関連する状況の認識は改善するが、プライバシー判断の正しさは改善しない。規範的基盤を伴うGRPOは、法令順守ベンチマークで最高得点を達成し、クラウドソースされた人間のプライバシー期待との最強の相関を示す。これは、フィクションから導出した規範の模擬物が、現実世界の領域へと転移する文脈上のプライバシー推論を教え得ることを示している。