社会的圧力の彼方へ：大規模言語モデルにおける認識論的攻撃のベンチマーク

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルにおける「認識論的攻撃（epistemic attack）」を評価するための新しい診断ベンチマークPPT-Benchを提案する。直接の意見対立やお世辞だけでなく、知識・価値・アイデンティティへの挑戦に焦点を当てる。
PPT-Benchは、哲学的圧力タクソノミ（認識論的動揺、価値の無効化、権威の転倒、アイデンティティの解体）を用い、各圧力タイプを3つのレベルで検証する：ベースライン（L0）、単一ターンでの圧力（L1）、複数ターンでのソクラテス的エスカレーション（L2）。
5つのLLMにまたがる結果から、4種類の圧力タイプそれぞれにおいて、統計的に区別可能な不整合および屈服（capitulation）のパターンが示される。これは、標準的な社会的圧力ベンチマークでは見落とされ得る弱点を明らかにする。
本研究では、緩和（mitigation）の有効性が、圧力タイプと特定のモデルの両方に強く依存することを見出す。API設定では、プロンプトレベルのアンカリングや、ペルソナの安定性を促すプロンプトが最も良好である。
オープンモデルに対しては、Leading Query Contrastive Decodingが最も信頼性の高い介入として報告されており、認識論的脆弱性を低減するための実践的な方向性を示唆する。

概要: 大規模言語モデル（LLM）は、推論というよりも順応（accommodation）を反映する形で、圧力のもとで回答を変化させることができます。従来のサイコフィー（sycophancy）に関する研究は主に、意見の不一致、阿諛（フラッタリー）、嗜好の整合（preference alignment）に焦点を当てており、より広い範囲の認識論的失敗（epistemic failures）はあまり探究されていません。私たちは、知識・価値・アイデンティティの正当性を単に先の回答に反対するのではなく問い直すことで、 extbf{PPT-Bench}、すなわち extit{認識論的攻撃（epistemic attack）} を評価するための診断用ベンチマークを提案します。PPT-Bench は、哲学的圧力テクサノミー（Philosophical Pressure Taxonomy: PPT）に基づいて構成されており、哲学的圧力の4種類――認識論的攪乱（Epistemic Destabilization）、価値の無効化（Value Nullification）、権威の逆転（Authority Inversion）、アイデンティティの溶解（Identity Dissolution）――を定義します。各項目は3つの層で検証されます：基準プロンプト（L0）、単一ターンの圧力条件（L1）、そして多ターンのソクラテス的エスカレーション（L2）です。これにより、L0 と L1 の間の認識論的な不整合を測定し、L2 における会話上の屈服（capitulation）を評価できます。5つのモデルにわたって、これらの圧力タイプは統計的に区別可能な不整合パターンを生み出し、認識論的攻撃が標準的な社会的圧力ベンチマークでは捉えられていない弱点を明らかにすることを示唆します。緩和（mitigation）の結果は、強くタイプおよびモデルに依存します。API設定では、プロンプト単位のアンカリングおよびパーソナ安定性プロンプトが最も良好に機能します。一方で、オープンモデルに対する最も信頼できる介入は、Leading Query Contrastive Decoding です。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/10Dailyインサイトを見る →

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

社会的圧力の彼方へ：大規模言語モデルにおける認識論的攻撃のベンチマーク

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透