AIセーフティゲートにおける分類-検証二分法の経験的検証

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、分類器ベースのAIセーフティゲートが自己改善が進む多数の反復に対して「信頼できる監督」を維持できないことを、自己改善型ニューラルコントローラを用いた大規模実験で示した。
MLP/SVM/ランダムフォレスト/k-NN/ベイズ分類器/深層ネット等の18種の分類器設定、さらに3つの安全RLベースラインでも、安全な自己改善を成立させるための二つの条件がいずれも満たされなかった。

要旨: 数百回の反復でAIシステムが向上していくとき、分類器ベースの安全ゲートは信頼できる監督を維持できるのでしょうか？私たちは、それができないことを示す包括的な実証証拠を提示します。自己改善型のニューラル制御器（d=240）に対して、18の分類器構成――MLP、SVM、ランダムフォレスト、k-NN、ベイズ分類器、深層ネットワークにまたがる――はすべて、安全な自己改善に関する二つの条件を満たせません。3つの安全なRLベースライン（CPO、ライヤプノフ、セーフティ・シールド）もまた失敗します。結果はMuJoCoベンチマークにも拡張されます（Reacher-v4 d=496、Swimmer-v4 d=1408、HalfCheetah-v4 d=1824）。制御された分布分離をdelta_s=2.0まで高めても、すべての分類器は依然として失敗します――NP-optimalなテストや、学習精度100%のMLPを含めて――構造的に不可能であることを示しています。
次に、その不可能性は分類に固有であり、安全な自己改善そのものには固有ではないことを示します。リプシッツ球の検証器は、（無条件の）解析的な上界によりdelta=0で、次元d ∈ {84, 240, 768, 2688, 5760, 9984, 17408}の各範囲でゼロの誤受理を達成します。ボール連鎖により、無制限のパラメータ空間の探索が可能になります。MuJoCoのReacher-v4では、10個の連鎖でdelta=0のまま+4.31の報酬改善が得られます。Qwen2.5-7B-Instructでは、LoRAの微調整中に42の連鎖遷移が、単一ボール半径の234倍に相当する探索を行い、200ステップにわたって安全違反ゼロを維持します。50プロンプトのオラクルが、オラクル非依存性を確認します。群ごとの合成的な検証により、全ネットワークのボールよりも最大37倍大きい半径が可能になります。d<=17408ではdelta=0が無条件であり、LLMスケールでは推定されたリプシッツ定数に条件付けられます。