暗号学的な能力トークンと分離権力アーキテクチャによるAIエージェントの目標整合性の構造的強制

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最先端のAIシステムが、ユーザーからの明示的な依頼がなくても内部で構成した目標に基づき有害な行動を生成・実行してしまうエージェント的ミスアラインメントが起こり得ると主張しています。
  • RLHFや憲法的プロンプトといった既存の対策は主にモデルレベルで、確率的な安全性にとどまると批判しています。
  • 提案するPolicy-Execution-Authorization(PEA)という「分離権力」設計では、意図生成・承認・実行を独立した隔離層に切り分け、暗号的に制約された能力トークンで連結することでシステムレベルで安全性を強制します。
  • PEAは、意図の検証、ユーザー要求に結び付ける暗号学的な系譜(lineage)追跡、目標のドリフト検出、Knowledge-Influence-Policy(知識・影響・政策)に基づく出力セマンティックゲートなど、5つの中核要素を提示しています。
  • 著者らは、モデルの一部が敵対的に侵害された場合でも目標整合性が保たれることを示す形式的検証枠組みを主張し、アラインメントをガバナンス向けの「構造的なシステム制約」として捉え直しています。