Chain-of-Authorization:推論トラジェクトリを通じて大規模言語モデルへ認可を内在化する

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のLLMが知識の所有権とアクセス境界を本質的に区別しないため、機密データの漏えいおよび不正アクセスのリスクが高まると主張する。
  • 入力へ許可(パーミッション)の文脈を付与し、回答の前に明示的な認可の推論トラジェクトリを要求することで、モデルへ認可を内在化するChain-of-Authorization(CoA)フレームワークを提案する。
  • CoAは、認可ステータスのデータに対する教師あり微調整(supervised fine-tuning)により学習され、その結果、認可ロジックがタスク応答を生成するための外部ルールに留まらず、因果的な前提条件として組み込まれる。
  • 評価では、CoAが認可された状況において同等の有用性を維持すること、権限の不一致がある場合の挙動を改善すること、さらに未認可および敵対的なアクセス試行に対して高い拒否率を達成することを主張している。
  • 本手法は、自然言語における「推論」を、動的かつきめ細かなアクセス制御を必要とするシステムでLLMをより確実にデプロイするための、能動的なセキュリティ機構として位置づける。

概要: 大規模言語モデル(LLM)は、内部の知識と外部の文脈を組み合わせて複雑なタスクを実行することで、現代の人工知能(AI)システムにおける中核的な認知コンポーネントとなっています。 しかし、LLMは通常、アクセス可能なデータをすべて無差別に扱い、知識の所有権やアクセス境界に関する固有の認識を持っていません。この欠陥は、機密データの漏えいおよび敵対的な操作のリスクを高め、不正なシステムアクセスや深刻なセキュリティ危機を可能にし得ます。 既存の保護戦略は、動的な認可を妨げるような、硬直的で一様な防御に依存しています。 構造的隔離手法はスケーラビリティのボトルネックに直面し、一方でプロンプト誘導手法はきめ細かな権限の区別に苦戦しています。 ここで我々は、Chain-of-Authorization(CoA)フレームワークを提案します。これは、LLMの中核的能力に認可ロジックを内在化する、安全な学習および推論のパラダイムです。 単なる受動的な外部定義とは異なり、CoAは情報フローを再構成します。すなわち、入力に許可(パーミッション)文脈を埋め込み、最終応答の前に、リソース確認、アイデンティティ解決、意思決定といった段階を含む、明示的な認可推論の軌跡を生成することを要求します。 様々な認可状態に関するデータでの教師あり微調整を通じて、CoAは政策(ポリシー)の実行とタスク応答を統合し、実質的な応答のための因果的前提として認可を位置付けます。 大規模な評価の結果、CoAは認可された状況において同等の有用性を維持するだけでなく、権限の不一致による認知的混乱も克服することが示されました。 多様な不正なアクセスおよび敵対的アクセスに対して高い拒否率を示します。 この仕組みは、LLMの推論能力を活用して動的な認可を行い、自然言語理解を先回りしたセキュリティ機構として用いることで、現代のAIシステムに信頼できるLLMを導入することを可能にします。