静的ベンチマークを超えて：ペルソナベース・シミュレーションによる有害コンテンツの合成で堅牢な評価を実現

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、有害コンテンツ検出の静的ベンチマークが拡張性や多様性の面で限界があること、さらにウェブ規模の事前学習コーパスによる汚染の影響を受けうることを指摘しています。
人口属性や興味トピックに加え、状況に応じた有害戦略を組み合わせて、ペルソナ誘導型のLLMエージェントで有害コンテンツを合成する枠組みを提案しています。
枠組みは、有害性、課題（難易度）レベル、多様性の3軸で評価され、人手評価とLLMベース評価の両方を用いて効果を検証しています。
複数の既存検出システムで実験したところ、合成シナリオは既存ベンチマークのシナリオよりも検出が難しく、有害生成の成功率も高いことが示されています。
生成結果は人手でキュレーションされたデータセットに匹敵する言語的・トピック的多様性を達成しており、このアプローチが検出システムの堅牢なストレステスト手段として有効であると位置づけています。