TRIDENT:三次元の多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上
arXiv cs.CL / 2026/4/20
💬 オピニオンModels & Research
要点
- この論文は、既存のLLM安全性アライメント用データセットが、語彙の多様性に偏る一方で他の重要な側面を十分にカバーできていない可能性があると指摘している。
- Lexical Diversity(語彙多様性)、Malicious Intent(悪意の意図)、Jailbreak Tactics(脱獄手口)の3つの次元からなるリスク・カバレッジ評価フレームワークを提案している。
- TRIDENTとして、ペルソナベースかつゼロショットのLLM生成を用いた自動パイプラインにより、これらの次元にまたがる多様な有害指示文を合成し、倫理的に整合した応答を対にしてデータセット化している。
- 生成されたTRIDENT-Core(26,311例)とTRIDENT-Edge(18,773例)でLlama 3.1-8Bを微調整した結果、最良のWildBreak微調整ベースラインに比べて平均14.29%のHarm Score低下と、攻撃成功率20%減を達成したと報告している。



