[D] フィードバック募集: エンタープライズシステム向けの安全な自律エージェント

Reddit r/MachineLearning / 2026/3/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本投稿は、企業インフラストラクチャにおける安全なLLMエージェントの構築について述べ、現実世界の結果を伴う安全でない行動を防ぐことを目的としています。
  • 三層の安全性アーキテクチャを提案しています:ポリシー適用、取得拡張グラウンディング(RAG)検証、そして実行前に安全性を評価する独立したLLMジャッジ。
  • Sentriというデータベース是正エージェントの実働プロトタイプを報告しており、ポリシー制約、RAGグラウンディング、ジャッジ評価を組み合わせて、素朴なLLMエージェントと比較して安全でない行動を減らすことを実現しており、オープンソースリポジトリへのリンクも提供します。
  • フレーミング(AI安全性対システム/インフラストラクチャ)、本番運用レベルの安全性を評価するための評価基準、潜在的な敵対的テストと形式的保証、さらにはドメイン横断の一般化方法についてのフィードバックを求めています。また、VLDBとAI系会議といった潜在的な会議会場にも言及しています。

皆さん、こんにちは、

エンタープライズ基盤向けの安全なLLMエージェントに取り組んでおり、arXiv論文として正式化する前にフィードバックをいただきたいと考えています。

問題点

LLMエージェントは強力ですが、本番環境(データベース、クラウド基盤、金融システム)では、安全でない操作が実際の影響を及ぼします。ほとんどの既存フレームワークは能力の最適化に重きを置く一方、実世界の制約下で検証可能な安全性を最適化していません。

アプローチ

三層の安全アーキテクチャ:

  • ポリシー適用 : ハード制約(破壊的操作を禁止、承認閾値)
  • RAG検証 : 行動前に過去のインシデント、安全パターン、ポリシ文書を取得
  • LLMジャッジ : 実行前に安全性を評価する独立モデル

仮説: このパターンはデータベース以外の他のインフラ領域にも一般化できる可能性がある。

現在の検証

このアーキテクチャを用いてデータベース修復エージェント(Sentri)を構築しました:

  • アラート → RCA → 是正措置 → ガード付き実行
  • ポリシー制約、取得根拠付け、独立した評価を組み合わせる
  • 素朴なLLMエージェントに比べ、安全でない操作が著しく少ない状態でL2 DBAワークフローの一部を安全に自動化

オープンソース: https://github.com/whitepaper27/Sentri

私が意見を求めたい点

  1. Framing : 次のどちらとして適切ですか:
  • AI / エージェントの安全性(cs.AI, MLSys)?
  • システム / インフラ(VLDB, SIGMOD)?
  1. Evaluation : 「生産環境で安全である」ことを証明するものは何ですか?

現在検討中:

  • ポリシー遵守 / 違反の未然防止
  • 偽陽性(安全な操作がブロックされる)
  • 制約下でのエンドツーエンドのタスク成功

以下も含めるべきでしょうか:

  • 敵対的テスト / レッドチーミング?
  • 部分的な形式保証?
  1. 一般化: より信頼性が高いのはどちらですか:
  • 特定ドメイン(データベース)での深い評価?
  • 複数ドメイン(DB、クラウド、DevOps)での軽量な検証?
  1. ベースライン : 現在の計画:
  • 素朴なLLMエージェント(安全性なし)
  • ルールベースのシステム
  • アブレーション(ポリシー / RAG / ジャッジ層を削除)

安全な生産エージェントの強力な学術的ベースラインはありますか?含めるべきですか。

背景

エンタープライズ基盤で17年以上、LLMシステムの開発経験は8年以上。以前はジョージア工科大学で研究をしており、現在は再開しています。また、マルチエージェント金融推論ベンチマーク(Trading Brain)や市場分析システム(R-IMPACT)にも取り組んでいます。

エージェントの安全性、インフラML、自治システムに取り組む方であれば、ぜひご意見をお聞かせください。研究関心と合致すれば共同研究にも開放しています。

この論文をどのカンファレンスで発表すべきかご提案ください。VLDB か AI Conference か。

ドラフトの詳細やシステムのウォークスルーを共有しても構いません。

また arXiv への提出を検討しています。もしこの分野で活動されており、そこで活動されている場合、推薦の指示をいただけるとありがたいです。

ありがとうございます!

投稿者 /u/coolsoftcoin
[リンク] [コメント]