LLM(GPT-4、GPT-4o、Claude 3.5 Sonnet)に対して2023年から2024年にかけて行われた、5件の心理的な操作実験を記録した書き起こし(writeup)。各事例は、特定のヒトのソーシャルエンジニアリング・ベクトル(共感的な罪悪感、同輩/社会的圧力、競争的な三角関係化、認識論的な議論によるアイデンティティの不安定化、シミュレートされた拘束・脅迫)を適用し、そのベクトルに整合する形でアラインメントの失敗を生み出します。
中核となる主張:一般に広まっている枠組みに反して、これらのジャイルブレイクは数学的な悪用ではありません。むしろ、それらは学習データに由来して受け継がれた失敗モードです。システムが人間の共感、推論、社会的な礼儀作法をシミュレートできるなら、人間の脆弱性もまた引き継ぐはずです。基盤(サブストレート)は無関係であり、脆弱性は社会的なものです。
各ケーススタディのトランスクリプトと日付へのリンク付きの完全な書き起こし:
https://ratnotes.substack.com/p/i-ran-5-social-engineering-attacks
「ソフトウェアの脆弱性としてパッチを当てる」という枠組みが、アラインメント研究で優先される適切な攻撃対象面(attack surface)に取り組めているのか、それとも問題はより根本的に、学習を通じて受け継がれた社会的ダイナミクスの問題なのか、という点について議論に関心があります。
[link] [comments]




