たぶんこれはかなり基本的な質問です。でも、ローカルモデルにツール呼び出しアクセスやファイルシステムのマウントを許可することは、本質的に危険であることは分かっています。モデル自身が危険なアクションにハルシネーションしてしまうかもしれませんし、モデルが読み取る外部コンテンツからプロンプトインジェクションを受ける可能性もあります。通常は、エージェントのフレームワークに組み込まれているサンドボックス機構に、すり抜けたものを検知してもらうことに頼っています。
Ant AI Security Labによる最近のOpenClawセキュリティ監査を読んでいて、考えさせられました。彼らは、サンドボックスのパラメータ検証を回避することで、フレームワークのメッセージツールを悪用し、ホストマシン上の任意のローカルファイルを読み取らせることができることを見つけました(参考: https://github.com/openclaw/openclaw/security/advisories/GHSA-v8wv-jg3q-qwpq)。
もしフレームワーク自身のパラメータ検証がこのように失敗し得て、ローカルモデルがプロンプトインジェクションを受けたり暴走したりする可能性があるとしたら、皆さんは実際にローカルのエージェント環境をどのように保護しているのでしょうか?
厳格なDocker設定に依存していますか? 専用VMですか? それともフレームワークに組み込まれている隔離機構を信頼しているだけでしょうか?
[link] [comments]




