Privacy Guard & Token Parsimony by Prompt and Context Handling and LLM Routing

arXiv cs.AI / 4/1/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 論文は、LLMの運用コスト最適化(ルーティング)とデータプライバシー確保のトレードオフを問題化し、従来手法がプロンプトの機微に無関心なためにクラウド事業者へ漏えいするリスクがあると指摘しています。
  • 「Inseparability Paradigm」に基づき、文脈管理(コンテキスト処理)とプライバシー管理は本質的に同時に扱うべきだと主張し、ローカルのSmall Language Model(SLM)で動く「Privacy Guard」を提案しています。
  • Privacy Guardは、抽象的要約(abstractive summarisation)と自動プロンプト最適化(APO)によりプロンプトを小さなサブタスクへ分解し、高リスク問い合わせをZero-TrustやNDAでカバーされたモデルへ再ルーティングします。
  • LIFOベースのコンテキスト圧縮によりワーキングメモリを制限して漏えい面(emergent leakage surface)を抑えるとし、2x2ベンチマークでOpExを45%削減、個人秘匿情報で100%のレダクション成功、APO圧縮応答が85%好まれたと報告しています。
  • 結果として「Token Parsimony(トークン節約)」と「Zero Leakage(漏えいゼロ)」が、同一の文脈圧縮オペレータの双対的な投影(mathematically dual projections)であると位置づけています。

Abstract

The large-scale adoption of Large Language Models (LLMs) forces a trade-off between operational cost (OpEx) and data privacy. Current routing frameworks reduce costs but ignore prompt sensitivity, exposing users and institutions to leakage risks towards third-party cloud providers. We formalise the "Inseparability Paradigm": advanced context management intrinsically coincides with privacy management. We propose a local "Privacy Guard" -- a holistic contextual observer powered by an on-premise Small Language Model (SLM) -- that performs abstractive summarisation and Automatic Prompt Optimisation (APO) to decompose prompts into focused sub-tasks, re-routing high-risk queries to Zero-Trust or NDA-covered models. This dual mechanism simultaneously eliminates sensitive inference vectors (Zero Leakage) and reduces cloud token payloads (OpEx Reduction). A LIFO-based context compacting mechanism further bounds working memory, limiting the emergent leakage surface. We validate the framework through a 2x2 benchmark (Lazy vs. Expert users; Personal vs. Institutional secrets) on a 1,000-sample dataset, achieving a 45% blended OpEx reduction, 100% redaction success on personal secrets, and -- via LLM-as-a-Judge evaluation -- an 85% preference rate for APO-compressed responses over raw baselines. Our results demonstrate that Token Parsimony and Zero Leakage are mathematically dual projections of the same contextual compression operator.