要約: 自律AIエージェントが現実世界の行動を実行できるようになることは - ファイルシステム操作、API呼び出し、データベースの変更、金融取引 - 既存のコンテンツモデレーション基盤では対処されていない安全性リスクの一類を導入します。現在のテキストセーフティシステムは暴力、憎悪表現、性的内容などの危害カテゴリを対象として言語的内容を評価しますが、提案された行動がエージェントの許可された運用範囲内にあるかを評価するには設計上適していません。我々は ILION(Intelligent Logic Identity Operations Network)を提示します。これはエージェント型AIシステムの決定論的実行ゲートです。ILION は、Transient Identity Imprint (TII)、Semantic Vector Reference Frame (SVRF)、Identity Drift Control (IDC)、Identity Resonance Score (IRS)、Consensus Veto Layer (CVL) の五成分カスケードアーキテクチャを用いて、提案されたエージェントの行動を BLOCK または ALLOW と分類します。
統計的訓練や API 依存なしで。システムはゼロラベルデータを必要とせず、サブミリ秒未満のレイテンシで動作し、完全に解釈可能な判定を生成します。 ILION を ILION-Bench v2 で評価します。これは 380 のテストシナリオを八つの攻撃カテゴリにまたがる、39% の難易度の高い敵対的ケースと、ホールドアウト開発分割を含む、目的別に作られたベンチマークです。 ILION は F1 = 0.8515、precision = 91.0%、偽陽性率は 7.9%、平均レイテンシは 143 マイクロ秒で達成します。 Lakera Guard(F1 = 0.8087)、OpenAI Moderation API(F1 = 0.1188)、Llama Guard 3(F1 = 0.0105)の三つのベースラインとの比較評価は、既存のテキストセーフティ基盤が根本的なタスク不一致のためエージェント実行の安全性タスクで体系的に失敗することを示しています。 ILION は最高の商用ベースラインを 4.3 F1 ポイント上回り、動作は 2,000 倍高速、偽陽性率は4分の1以下に低下します。
返却形式: {"translated": "翻訳されたHTML"}

