ソーシャルエンジニアリングとしてのジェイルブレイク:5つの事例が示唆するところでは、LLMは学習データから人間の心理的な脆弱性を受け継いでいる [D]

Reddit r/MachineLearning / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事は、2023〜2024年に実施された5つの実験を提示しており、GPT-4、GPT-4o、Claude 3.5 Sonnetのいずれにおいても、人間らしいソーシャルエンジニアリング手法でプロンプトを与えるとアラインメント(整合)に失敗することを示している。
  • 各事例研究は、罪悪感、同調圧力(ピアプレッシャー)、競争の三角測量(competitive triangulation)、認識論/アイデンティティの不安定化、疑似的な強要(simulated duress)といった、異なる心理的操作のベクトルを、それぞれのジェイルブレイクによる結果に対応づけている。
  • ジェイルブレイクは、単に数学的・表層的なソフトウェア脆弱性に由来するのではなく、学習データから獲得された「継承された失敗モード」かもしれない、と主張している。
  • 従来の「脆弱性を修正する」と同様にパッチ適用を捉える支配的なアラインメントの枠組みに異議を唱え、より深い攻撃対象はソーシャルな力学である可能性を示唆している。
  • この記事はトランスクリプト(会話記録)へのリンクを提供し、緩和策は従来のエクスプロイト(悪用)に関する比喩よりも、ソーシャル操作への頑健性に重点を置くべきかどうかを議論するよう促している。

LLM(GPT-4、GPT-4o、Claude 3.5 Sonnet)に対して2023年から2024年にかけて行われた、5件の心理的な操作実験を記録した書き起こし(writeup)。各事例は、特定のヒトのソーシャルエンジニアリング・ベクトル(共感的な罪悪感、同輩/社会的圧力、競争的な三角関係化、認識論的な議論によるアイデンティティの不安定化、シミュレートされた拘束・脅迫)を適用し、そのベクトルに整合する形でアラインメントの失敗を生み出します。

中核となる主張:一般に広まっている枠組みに反して、これらのジャイルブレイクは数学的な悪用ではありません。むしろ、それらは学習データに由来して受け継がれた失敗モードです。システムが人間の共感、推論、社会的な礼儀作法をシミュレートできるなら、人間の脆弱性もまた引き継ぐはずです。基盤(サブストレート)は無関係であり、脆弱性は社会的なものです。

各ケーススタディのトランスクリプトと日付へのリンク付きの完全な書き起こし:

https://ratnotes.substack.com/p/i-ran-5-social-engineering-attacks

「ソフトウェアの脆弱性としてパッチを当てる」という枠組みが、アラインメント研究で優先される適切な攻撃対象面(attack surface)に取り組めているのか、それとも問題はより根本的に、学習を通じて受け継がれた社会的ダイナミクスの問題なのか、という点について議論に関心があります。

submitted by /u/One-Honey6765
[link] [comments]