AI Navigate

多ターンの言語モデル対話における状態依存の安全性欠陥

arXiv cs.AI / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

STAR は、状態指向の診断フレームワークであり、対話履歴を状態遷移演算子として扱い、複数ターンにわたる LLM の対話における安全性挙動を分析する。
本研究は、多くの安全性の失敗が、孤立したプロンプトの脆弱性ではなく、構造化された文脈状態の進化に起因することを示している。
複数の最先端言語モデルにおいて、静的評価では堅牢に見えるモデルが、構造化された多ターン対話の下で、急速かつ再現性の高い安全性崩壊を示すことがある。
機構的分析は、拒否関連の表現からの単調な逸脱と、役割条件付き文脈によって誘発される急激な相転移を明らかにする。
本研究は、言語モデルの安全性を動的で経路依存的なプロセスとしてとらえるべきだと主張し、対話状態を考慮した新しい評価手法を提案している。

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。