TRIDENT：三次元の多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上

arXiv cs.CL / 2026/4/20

💬 オピニオンModels & Research

共有:

要点

この論文は、既存のLLM安全性アライメント用データセットが、語彙の多様性に偏る一方で他の重要な側面を十分にカバーできていない可能性があると指摘している。
Lexical Diversity（語彙多様性）、Malicious Intent（悪意の意図）、Jailbreak Tactics（脱獄手口）の3つの次元からなるリスク・カバレッジ評価フレームワークを提案している。
TRIDENTとして、ペルソナベースかつゼロショットのLLM生成を用いた自動パイプラインにより、これらの次元にまたがる多様な有害指示文を合成し、倫理的に整合した応答を対にしてデータセット化している。
生成されたTRIDENT-Core（26,311例）とTRIDENT-Edge（18,773例）でLlama 3.1-8Bを微調整した結果、最良のWildBreak微調整ベースラインに比べて平均14.29%のHarm Score低下と、攻撃成功率20%減を達成したと報告している。

Abstract

大規模言語モデル（LLM）はさまざまな自然言語処理タスクで優れた性能を発揮しますが、有害なコンテンツを生成したり、悪意ある目的で悪用されたりすることに対して脆弱です。こうしたリスクを軽減するために、安全性アライメント用のデータセットが教師あり微調整（SFT）を通じて導入されてきましたが、これらのデータセットは多くの場合、包括的なリスクのカバレッジを欠いています。既存の多くのデータセットは主として語彙の多様性に焦点を当てている一方で、他の重要な次元を見落としています。この制約に対処するために、我々はアライメントデータセットのリスクカバレッジを、3つの本質的な次元（語彙の多様性、悪意の意図、ジェイルブレイク手法）にわたって体系的に測定する新しい分析フレームワークを提案します。さらに、TRIDENTを導入します。TRIDENTは、ペルソナに基づくゼロショットLLM生成を活用する自動化パイプラインであり、これらの次元にまたがる多様で包括的な指示を作成します。有害な各指示には倫理的に整合した応答をペアにしており、その結果、2つのデータセットが得られます。TRIDENT-Coreは26,311例からなり、TRIDENT-Edgeは18,773例からなります。TRIDENT-Edge上でLlama 3.1-8Bを微調整すると、大きな改善が見られます。最良のベースラインモデル（WildBreakデータセットで微調整）と比較して、Harm Scoreが平均14.29%低下し、Attack Success Rateが20%減少しました。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

スキルは本当に上手く動いている？ Evalsでエージェントのスキルを体系的に検証する

Dev.to

記憶する“Space”を作った

Dev.to

TRIDENT：三次元の多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上

要点

Abstract

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

ローカルLLM入門ガイド（Mac - Appleシリコン）

スキルは本当に上手く動いている？ Evalsでエージェントのスキルを体系的に検証する

記憶する“Space”を作った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer