社会的圧力の彼方へ:大規模言語モデルにおける認識論的攻撃のベンチマーク

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルにおける「認識論的攻撃(epistemic attack)」を評価するための新しい診断ベンチマークPPT-Benchを提案する。直接の意見対立やお世辞だけでなく、知識・価値・アイデンティティへの挑戦に焦点を当てる。
  • PPT-Benchは、哲学的圧力タクソノミ(認識論的動揺、価値の無効化、権威の転倒、アイデンティティの解体)を用い、各圧力タイプを3つのレベルで検証する:ベースライン(L0)、単一ターンでの圧力(L1)、複数ターンでのソクラテス的エスカレーション(L2)。
  • 5つのLLMにまたがる結果から、4種類の圧力タイプそれぞれにおいて、統計的に区別可能な不整合および屈服(capitulation)のパターンが示される。これは、標準的な社会的圧力ベンチマークでは見落とされ得る弱点を明らかにする。
  • 本研究では、緩和(mitigation)の有効性が、圧力タイプと特定のモデルの両方に強く依存することを見出す。API設定では、プロンプトレベルのアンカリングや、ペルソナの安定性を促すプロンプトが最も良好である。
  • オープンモデルに対しては、Leading Query Contrastive Decodingが最も信頼性の高い介入として報告されており、認識論的脆弱性を低減するための実践的な方向性を示唆する。

概要: 大規模言語モデル(LLM)は、推論というよりも順応(accommodation)を反映する形で、圧力のもとで回答を変化させることができます。従来のサイコフィー(sycophancy)に関する研究は主に、意見の不一致、阿諛(フラッタリー)、嗜好の整合(preference alignment)に焦点を当てており、より広い範囲の認識論的失敗(epistemic failures)はあまり探究されていません。私たちは、知識・価値・アイデンティティの正当性を単に先の回答に反対するのではなく問い直すことで、 extbf{PPT-Bench}、すなわち extit{認識論的攻撃(epistemic attack)} を評価するための診断用ベンチマークを提案します。PPT-Bench は、哲学的圧力テクサノミー(Philosophical Pressure Taxonomy: PPT)に基づいて構成されており、哲学的圧力の4種類――認識論的攪乱(Epistemic Destabilization)、価値の無効化(Value Nullification)、権威の逆転(Authority Inversion)、アイデンティティの溶解(Identity Dissolution)――を定義します。各項目は3つの層で検証されます:基準プロンプト(L0)、単一ターンの圧力条件(L1)、そして多ターンのソクラテス的エスカレーション(L2)です。これにより、L0 と L1 の間の認識論的な不整合を測定し、L2 における会話上の屈服(capitulation)を評価できます。5つのモデルにわたって、これらの圧力タイプは統計的に区別可能な不整合パターンを生み出し、認識論的攻撃が標準的な社会的圧力ベンチマークでは捉えられていない弱点を明らかにすることを示唆します。緩和(mitigation)の結果は、強くタイプおよびモデルに依存します。API設定では、プロンプト単位のアンカリングおよびパーソナ安定性プロンプトが最も良好に機能します。一方で、オープンモデルに対する最も信頼できる介入は、Leading Query Contrastive Decoding です。