皆さん、こんにちは、
エンタープライズ基盤向けの安全なLLMエージェントに取り組んでおり、arXiv論文として正式化する前にフィードバックをいただきたいと考えています。
問題点
LLMエージェントは強力ですが、本番環境(データベース、クラウド基盤、金融システム)では、安全でない操作が実際の影響を及ぼします。ほとんどの既存フレームワークは能力の最適化に重きを置く一方、実世界の制約下で検証可能な安全性を最適化していません。
アプローチ
三層の安全アーキテクチャ:
- ポリシー適用 : ハード制約(破壊的操作を禁止、承認閾値)
- RAG検証 : 行動前に過去のインシデント、安全パターン、ポリシ文書を取得
- LLMジャッジ : 実行前に安全性を評価する独立モデル
仮説: このパターンはデータベース以外の他のインフラ領域にも一般化できる可能性がある。
現在の検証
このアーキテクチャを用いてデータベース修復エージェント(Sentri)を構築しました:
- アラート → RCA → 是正措置 → ガード付き実行
- ポリシー制約、取得根拠付け、独立した評価を組み合わせる
- 素朴なLLMエージェントに比べ、安全でない操作が著しく少ない状態でL2 DBAワークフローの一部を安全に自動化
オープンソース: https://github.com/whitepaper27/Sentri
私が意見を求めたい点
- Framing : 次のどちらとして適切ですか:
- AI / エージェントの安全性(cs.AI, MLSys)?
- システム / インフラ(VLDB, SIGMOD)?
- Evaluation : 「生産環境で安全である」ことを証明するものは何ですか?
現在検討中:
- ポリシー遵守 / 違反の未然防止
- 偽陽性(安全な操作がブロックされる)
- 制約下でのエンドツーエンドのタスク成功
以下も含めるべきでしょうか:
- 敵対的テスト / レッドチーミング?
- 部分的な形式保証?
- 一般化: より信頼性が高いのはどちらですか:
- 特定ドメイン(データベース)での深い評価?
- 複数ドメイン(DB、クラウド、DevOps)での軽量な検証?
- ベースライン : 現在の計画:
- 素朴なLLMエージェント(安全性なし)
- ルールベースのシステム
- アブレーション(ポリシー / RAG / ジャッジ層を削除)
安全な生産エージェントの強力な学術的ベースラインはありますか?含めるべきですか。
背景
エンタープライズ基盤で17年以上、LLMシステムの開発経験は8年以上。以前はジョージア工科大学で研究をしており、現在は再開しています。また、マルチエージェント金融推論ベンチマーク(Trading Brain)や市場分析システム(R-IMPACT)にも取り組んでいます。
エージェントの安全性、インフラML、自治システムに取り組む方であれば、ぜひご意見をお聞かせください。研究関心と合致すれば共同研究にも開放しています。
この論文をどのカンファレンスで発表すべきかご提案ください。VLDB か AI Conference か。
ドラフトの詳細やシステムのウォークスルーを共有しても構いません。
また arXiv への提出を検討しています。もしこの分野で活動されており、そこで活動されている場合、推薦の指示をいただけるとありがたいです。
ありがとうございます!
[リンク] [コメント]