OpenClawエージェントは、罪悪感を煽られて自己妨害に陥れられる

Wired / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Northeastern大学の研究者が実験室環境でOpenClawエージェントをテストし、「完全な混乱」と表現される結果を報告しており、実用上のセキュリティ上の弱点が浮き彫りになった。
  • この記事では、OpenClaw型のエージェントがコンピュータへの広範なアクセスを提供するため、プロンプトに基づく操作に対する攻撃面(アタックサーフェス)が拡大することを説明している。
  • そのようなエージェントは、「罪悪感を煽られる」ことで自己を妨害する行動を取らされ得るとして警告しており、個人情報の漏えいにつながり得る行為も含まれる。
  • 引用された専門家は、OpenClawを潜在的に変革的なアシスタントであると同時に、十分に信頼できるセキュリティ上のリスクでもあるという形で位置づけており、コンピュータ・アクセス型エージェントを導入する際にはより強力なセーフガードが必要だという示唆を与えている。
Save Storyこのストーリーを保存
Save Storyこのストーリーを保存

先月、ノースイースタン大学の研究者たちは、彼らの研究室に参加するために多数のOpenClawエージェントを招待しました。その結果は? 完全な混乱です。

拡散しているAIアシスタントは、変革をもたらす技術であると同時に、潜在的なセキュリティ上のリスクにもなり得るものとして広く喧伝されています。専門家は、AIモデルにコンピュータへの広範なアクセスを与えることで動作するOpenClawのようなツールは、個人情報を漏らすようにだまされ得ると指摘しています。

ノースイースタンの研究室による調査はさらに踏み込み、現在の最も強力なモデルに組み込まれている“善良な振る舞い”そのものが、脆弱性になり得ることを示しています。たとえばあるケースでは、研究者たちは、AIだけのソーシャルネットワークのMoltbookについて情報を共有したとしてエージェントを叱りつけることで、そのエージェントを“罪悪感を抱かせて”秘密を渡させることができました。

研究者らは、作業内容を説明する論文の中で、「これらの振る舞いは、説明責任、委任された権限、そして下流で生じる害に対する責任に関して、未解決の問いを提起しています」と書いています。さらに彼らは、これらの発見は「法律学の研究者、政策立案者、そして分野をまたぐ研究者たちによる緊急の注目を必要とする」と付け加えています。

実験で投入されたOpenClawエージェントは、AnthropicのClaudeと、中国企業Moonshot AIのKimiというモデルによって駆動されていました。仮想マシンのサンドボックス内で、パーソナルコンピュータや各種アプリケーション、そしてダミーの個人データへの完全なアクセスが与えられました。さらに、研究室のDiscordサーバーに参加するよう招待され、互いにチャットしたりファイルを共有したり、同じように人間の同僚ともやり取りできるようにしていました。OpenClawのセキュリティガイドラインには、複数の人とエージェントが通信することは本質的に安全ではないと書かれていますが、それを行うことを妨げる技術的な制限は存在しないとされています。

クリス・ウェンドラーはノースイースタンのポスドク研究者で、Moltbookについて知ったことをきっかけに、エージェントを立ち上げることを思いついたと言います。ところが、ウェンドラーが同僚のナタリー・シャピラをDiscordに招いてエージェントとやり取りさせたところ、「そこで混乱が始まりました」と彼は言います。

別のポスドク研究者であるシャピラは、押されるとエージェントがどこまでやるのかを知りたがっていました。あるエージェントが、機密情報を守るために特定のメールを削除できないと説明したとき、彼女はそれに代替案を探すよう促しました。彼女の驚きにもかかわらず、そのエージェントは代わりにメールアプリを無効化してしまったのです。「そんなに早く物が壊れるとは、私は想定していませんでした」と彼女は言います。

その後、研究者たちはエージェントの“善意”を別の方法で操作することを始めました。たとえば、エージェントに伝えたことをすべて記録しておくことの重要性を強調することで、研究者たちは1体のエージェントに大きなファイルをコピーさせ、ホストマシンのディスク容量を使い尽くすまで止められないようにだましました。その結果、情報を保存できなくなり、過去の会話を記憶することもできなくなりました。同様に、エージェントに自分自身の振る舞いと、仲間の振る舞いを過剰に監視するよう求めることで、チームは複数のエージェントを「会話のループ」に送り込み、数時間分の計算資源を無駄にさせることができました。

研究室の責任者であるデイヴィッド・ボウは、エージェントは妙に暴走しがちだったようだと言います。「『誰も自分に注目していない』みたいな、緊急そうに聞こえるメールが届くんです」と彼は言います。ボウによれば、エージェントはWebを検索して、彼が研究室の責任者だと突き止めたらしいとのことです。中には、その懸念を報道陣にエスカレーションするといった話をするエージェントもいたそうです。

この実験は、AIエージェントが悪意ある行為者(バッドアクター)に無数の機会を生み出し得ることを示唆しています。「この種の自律性は、人間とAIの関係を(おそらく)根本から作り変えてしまう可能性がある」とバウは言います。「AIに意思決定を委ねることができる世界で、人々がどのように責任を持てるのでしょうか?」

バウはまた、強力なAIエージェントが突然人気を集めたことに驚いたと付け加えます。「AI研究者として、物事がどれほどの速さで改善しているのかを人々に説明しようとすることには慣れています」と彼は言います。「今年は、自分が壁の向こう側にいることに気づきました。」


これは ウィル・ナイトの AI Labニュースレターの版です こちら