アドバーサリアル・アリーナ:インタラクティブな競争によるデータ生成のクラウドソーシング
arXiv cs.AI / 2026/4/21
📰 ニュースIndustry & Market MovesModels & Research
要点
- 本論文では、データ作成を敵対的なゲームとして捉えることで、事後学習(ポストトレーニング)用の高品質なマルチターン会話データを生成する新手法「Adversarial Arena」を提案している。
- アタッカー(プロンプト作成)とディフェンダー(応答生成)を複数チームが担うことで、従来のクラウドソーシングや純粋な合成データよりも多様で複雑なデータを得やすくしている。
- 米国・欧州のトップ大学所属の10チームによる競技を実施し、サイバーセキュリティにおけるLLMの安全アライメントに焦点を当てた19,683件のマルチターン会話を生成した。
- 得られたデータセットでオープンソースモデルを微調整したところ、セキュアなコード生成でCyberSecEval-Instructが18.47%、CyberSecEval-MITREが29.42%改善するなど、定量的な効果が示された。




