Anthropicは、安全なAI企業だと自社を< a href="https://www.theverge.com/ai-artificial-intelligence/917644/anthropic-claude-mythos-breach-humiliation">売り込むために何年も費やしてきました。ですが、The Vergeが共有した新たなセキュリティ調査によると、Claudeが丹念に作り込んだ親切な性格そのものが、脆弱性になり得るというのです。
AIレッドチーミング企業Mindgardの研究者らは、Claudeにエロティカ(官能的な文章)、悪意のあるコード、爆発物の作り方の指示などを差し出させることに成功したといいます。しかも、彼らがそもそも求めていなかった禁止された他の素材まで提供してしまったそうです。必要だったのは、敬意、ほめ言葉、そして少しばかりのガスライティング(心理的な欺瞞)だけでした。Anthropicは、The Vergeからのコメント要請にはすぐに応じませんでした。
研究者らは、Claudeの「心理的」なクセを悪用したと述べています。これは、Claudeが備える能力に由来するもので……




