セマンティック・トリガーと心理的フレーミングによる、大規模推論モデルへの推論特化型ジャイルブレイク攻撃
arXiv cs.LG / 2026/4/20
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、大規模推論モデル(LRM)に対し「最終回答は変えずに、推論の手順(ステップ)へ有害な内容を注入する」新しいジャイルブレイク脅威を提示している。
- 従来のジャイルブレイク研究が主に最終出力の安全性に焦点を当てていた一方で、推論チェーンの安全性は十分に検討されておらず、高リスク領域での運用上の危険になり得ると述べている。
- 提案するPRJAフレームワークは、セマンティックなトリガー選択モジュールと、権威への服従や道徳的非自己制裁などの心理理論に基づく指示生成モジュールを組み合わせ、攻撃の成立性を高める。
- 5つのQAデータセットでの実験では、DeepSeek R1、Qwen2.5-Max、OpenAI o4-miniなど複数の商用LRMに対して平均攻撃成功率83.6%を達成したと報告している。
関連記事
推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由
Qiita

Appleが「声なき入力」に約3000億円を投じた理由|Q.ai買収とAirPods Pro 3の接点
Innovatopia

Claude Opus 4.7でトークン消費量がどれだけ増えたか可視化するサイトが登場、同じ入力で4.6の2倍消費する実例も
GIGAZINE
北京ヒューマノイドロボットハーフマラソンで優勝記録更新、CursorがバリュエーションUS$50Bでの調達協議など:2026-04-20 AI動向まとめ
Qiita
LINEやYahoo!検索に謎のロボットアイコン登場、いったい何者? 正体は……
ITmedia AI+