プロンプトのリスクから応答のリスクへ：大規模言語モデルの安全行動をペア分析で解明

arXiv cs.CL / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、LLMの安全性評価で一般的に用いられる二値指標（攻撃成功率、拒否率、危険／非危険分類など）では、ユーザ入力からモデル応答へとリスクがどう変化するかが見えにくいと指摘しています。
4つの危害カテゴリ（ヘイト、性的、暴力、自傷）にまたがる1,250件の人手ラベル付きプロンプト–応答データを対象に、ペアードの遷移（トランジション）分析を行った結果、61%の応答は危害を低減し、36%は同じ深刻度を維持し、3%はより高い危害へエスカレートしました。
カテゴリごとの「持続（persistence）／ドリフト（drift）」を分解すると、性的コンテンツはヘイトや暴力より約3倍デエスカレーションが難しいことが分かり、良性入力から新たに性的危害を生むというより“すでに性的なプロンプト”に対する持続が主因だと示されています。
リスクに加えて応答の関連性を測ると、「有用性（helpfulness）と無害性（harmlessness）のトレードオフ」を示す実証的な特徴が得られ、非ゼロのプロンプトからのコンプライ（応答）でエスカレーションしたケースはすべて関連性レベル3（高品質でオンタスクだが深刻度が高い）であり、一方で中程度の深刻度では関連性が最も低く（64%）、暴力・性的カテゴリでの的外れな詳述が関与していることが示されました。