プロンプトとコンテキスト処理によるプライバシーガード＆トークン節約、およびLLMルーティング

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの運用コスト最適化（ルーティング）とデータプライバシー確保のトレードオフを問題化し、従来手法がプロンプトの機微に無関心であるためにクラウド事業者へ漏えいするリスクがあると指摘しています。
「Inseparability Paradigm」に基づき、文脈管理（コンテキスト処理）とプライバシー管理は本質的に同時に扱うべきだと主張し、ローカルのSmall Language Model（SLM）で動作する「Privacy Guard」を提案しています。
Privacy Guardは、抽象的要約（abstractive summarisation）と自動プロンプト最適化（APO）によりプロンプトを小さなサブタスクへ分解し、高リスク問い合わせをZero-TrustやNDAでカバーされたモデルへ再ルーティングします。
LIFOベースのコンテキスト圧縮によりワーキングメモリを制限して漏えい面（emergent leakage surface）を抑えるとし、2x2ベンチマークでOpExを45%削減、個人秘匿情報で100%のレダクション成功、APO圧縮応答が85%好まれたと報告しています。
結果として「Token Parsimony（トークン節約）」と「Zero Leakage（漏えいゼロ）」が、同一の文脈圧縮オペレータの双対的な投影（mathematically dual projections）であると位置づけています。

Abstract

大規模言語モデル（LLM）の大規模な導入は、運用コスト（OpEx）とデータプライバシーの間のトレードオフを強制します。現在のルーティングフレームワークはコストを削減しますが、プロンプトの機微性を無視しており、第三者のクラウド提供者に対する漏えいリスクによって利用者や機関がさらされています。我々は「非分離パラダイム」を形式化します。すなわち、高度なコンテキスト管理は本質的にプライバシー管理と同時に成立します。我々は、オンプレミスのSmall Language Model（SLM）によって駆動されるローカルな「Privacy Guard」—包括的な文脈観測者—を提案します。これは、抽象化要約と自動プロンプト最適化（APO）を実行し、プロンプトを焦点を絞ったサブタスクへ分解することで、高リスクの問い合わせをゼロトラストまたはNDAでカバーされたモデルへ再ルーティングします。この二重メカニズムにより、機微な推論のためのベクトルを同時に排除（Zero Leakage）し、クラウドへのトークン・ペイロードを削減して（OpEx Reduction）、運用コストを低減します。LIFOベースのコンテキスト圧縮機構はさらに作業メモリを制限し、創発的な漏えい面を抑えます。1,000サンプルのデータセット上で、2×2ベンチマーク（Lazy vs. Expertユーザ；Personal vs. Institutionalの機密）によりフレームワークを検証し、45%のブレンドOpEx削減、個人の機密に対する100%の秘匿（redaction）成功、そして—LLM-as-a-Judgeによる評価を通じて—APO圧縮した応答が生のベースラインよりも好まれる割合85%を達成しました。我々の結果は、トークンの節約（Token Parsimony）とゼロ漏えい（Zero Leakage）が、同一の文脈圧縮オペレータに対する数学的な双対（dual）射影であることを示しています。