広告

自己改善システムに対する安全性検証の情報理論的限界

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、「安全ゲート」によって、累積リスクは有界に保ちつつ無限に有益な自己改変を許容できるのかを形式化し、例えばリスク有界性(∑δ_n < ∞)と有用性の無界性(∑TPR_n = ∞)といった条件を用いて検討する。
  • 分類器ベースのゲーティングは、累積リスクを有界にしつつ有用性を無限にすることが両立できないという非両立(インコンパチビリティ)結果を証明する。具体的には、δ_n = O(n^{-p})(p > 1)の冪乗則リスクスケジュールにおいて、TPR_n が可和(summable)となり発散できないためである。
  • 著者らはさらに、任意の可和なリスクスケジュールが与えられても達成可能な分類器ベースの有用性には有限ホライズンでの普遍的な天井(ceiling)があることを導出する。その最大値の成長は多項式的ではなく、(おおむね)exp(O(sqrt(log N))) 程度のサブ多項式的な増加にしかならないことを示し、N = 10^6 において分類器ベースと検証器ベースの限界の間に大きなギャップがあることを例示する。
  • 別個に、「検証による脱出(verification escape)」の定理を示し、リプシッツ球(Lipschitz-ball)検証器を用いることで TPR > 0 を維持しつつ δ = 0 を達成できることを示す。これにより分類器の不可能性を回避でき、LoRA を適用した事前LayerNorm(pre-LayerNorm)トランスフォーマに対して形式的な境界が適用される。
  • 実験的に、著者らは LoRA を用いた GPT-2 において検証器の脱出を検証する。d_LoRA = 147,456 の設定で、条件付きの δ = 0 かつ TPR = 0.352 を報告しており、より広範な実験は関連する別稿(コンパニオンワーク)に延期している。

概要: 安全ゲートは、累積リスクを有界に保ちながら、無限に有益な自己改変を許可できるだろうか? 我々はこの問いを、2つの条件──すなわち sum delta_n < infinity(有界リスク)と sum TPR_n = infinity(無界の効用)──を要求することで形式化し、それらの(非)両立性に関する理論を確立する。
分類不可能性(定理1): リスクのスケジュールがべき乗則 delta_n = O(n^{-p})(p > 1)で与えられる場合、重なりをもつ安全/危険な分布に対するいかなる分類器ベースのゲートも Holder の不等式により TPR_n <= C_alpha * delta_n^beta を満たし、その結果 sum TPR_n < infinity が強制される。この不可能性は指数に関して最適(定理3)である。さらに、NP によるカウント手法(定理4)を用いた独立の別証明により、Holder の不等式を使う場合より 13% だけ厳しい境界が得られる。
普遍的な有限ホライズン上限(定理5): 可和なリスクスケジュールの任意のもとで、達成可能な分類器ユーティリティの厳密な最大値は U*(N, B) = N * TPR_NP(B/N) であり、exp(O(sqrt(log N))) のように増大する──これは多項式未満の増加である。N = 10^6、予算 B = 1.0 のとき、分類器が抽出できるのは最大でも U* ~ 87 であるのに対し、検証器は ~500,000 である。
検証による回避(定理2): Lipschitz 球の検証器は、TPR > 0 を保ったまま delta = 0 を達成し、不可能性を回避する。LoRA のもとでの pre-LayerNorm transformer に対する Lipschitz 境界を形式化することで、LLM 規模の検証が可能になる。この分離は厳密である。GPT-2(d_LoRA = 147,456)で検証すると、条件付き delta = 0 で TPR = 0.352 となる。包括的な実験的検証は付随論文 [D2] にある。

広告
自己改善システムに対する安全性検証の情報理論的限界 | AI Navigate