LLMは内部で何がプライベートかを知っているのか？大規模言語モデル表現における文脈的プライバシー規範の探索と誘導

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが（文脈的整合性理論に基づく）文脈的プライバシー規範を内部で表現しているのか、またそれにもかかわらずなぜ高リスクな状況でプライベート情報を開示してしまうのかを検討する。
情報タイプ、受け手、伝達原則という3つの文脈的整合性パラメータが、複数のモデルにわたって活性空間内で線形に分離可能かつ機能的に独立な方向として現れることを報告する。
内部ではこのように符号化されているにもかかわらず、研究ではプライバシー漏えいが持続することが示され、モデルが表現している内容と実際の振る舞いの間に不一致があることを示唆する。
著者らは「CIパラメトリック・スティアリング」を提案しており、各CI次元に沿った標的介入を行うことで、従来の単発（モノリシック）な誘導よりも効果的にプライバシー違反を減らす。
全体として、結果は、文脈的プライバシーの失敗が「プライバシー概念への内部的な認識の欠如」ではなく、表現と振る舞いの不整合に起因することを示している。