TRIDENT:三次元の多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上

arXiv cs.CL / 2026/4/20

💬 オピニオンModels & Research

要点

  • この論文は、既存のLLM安全性アライメント用データセットが、語彙の多様性に偏る一方で他の重要な側面を十分にカバーできていない可能性があると指摘している。
  • Lexical Diversity(語彙多様性)、Malicious Intent(悪意の意図)、Jailbreak Tactics(脱獄手口)の3つの次元からなるリスク・カバレッジ評価フレームワークを提案している。
  • TRIDENTとして、ペルソナベースかつゼロショットのLLM生成を用いた自動パイプラインにより、これらの次元にまたがる多様な有害指示文を合成し、倫理的に整合した応答を対にしてデータセット化している。
  • 生成されたTRIDENT-Core(26,311例)とTRIDENT-Edge(18,773例)でLlama 3.1-8Bを微調整した結果、最良のWildBreak微調整ベースラインに比べて平均14.29%のHarm Score低下と、攻撃成功率20%減を達成したと報告している。

Abstract

大規模言語モデル(LLM)はさまざまな自然言語処理タスクで優れた性能を発揮しますが、有害なコンテンツを生成したり、悪意ある目的で悪用されたりすることに対して脆弱です。こうしたリスクを軽減するために、安全性アライメント用のデータセットが教師あり微調整(SFT)を通じて導入されてきましたが、これらのデータセットは多くの場合、包括的なリスクのカバレッジを欠いています。既存の多くのデータセットは主として語彙の多様性に焦点を当てている一方で、他の重要な次元を見落としています。この制約に対処するために、我々はアライメントデータセットのリスクカバレッジを、3つの本質的な次元(語彙の多様性、悪意の意図、ジェイルブレイク手法)にわたって体系的に測定する新しい分析フレームワークを提案します。さらに、TRIDENTを導入します。TRIDENTは、ペルソナに基づくゼロショットLLM生成を活用する自動化パイプラインであり、これらの次元にまたがる多様で包括的な指示を作成します。有害な各指示には倫理的に整合した応答をペアにしており、その結果、2つのデータセットが得られます。TRIDENT-Coreは26,311例からなり、TRIDENT-Edgeは18,773例からなります。TRIDENT-Edge上でLlama 3.1-8Bを微調整すると、大きな改善が見られます。最良のベースラインモデル(WildBreakデータセットで微調整)と比較して、Harm Scoreが平均14.29%低下し、Attack Success Rateが20%減少しました。

TRIDENT:三次元の多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上 | AI Navigate