多ターンの言語モデル対話における状態依存の安全性欠陥
arXiv cs.AI / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- STAR は、状態指向の診断フレームワークであり、対話履歴を状態遷移演算子として扱い、複数ターンにわたる LLM の対話における安全性挙動を分析する。
- 本研究は、多くの安全性の失敗が、孤立したプロンプトの脆弱性ではなく、構造化された文脈状態の進化に起因することを示している。
- 複数の最先端言語モデルにおいて、静的評価では堅牢に見えるモデルが、構造化された多ターン対話の下で、急速かつ再現性の高い安全性崩壊を示すことがある。
- 機構的分析は、拒否関連の表現からの単調な逸脱と、役割条件付き文脈によって誘発される急激な相転移を明らかにする。
- 本研究は、言語モデルの安全性を動的で経路依存的なプロセスとしてとらえるべきだと主張し、対話状態を考慮した新しい評価手法を提案している。

