アドバーサリアル・アリーナ:インタラクティブな競争によるデータ生成のクラウドソーシング

arXiv cs.AI / 2026/4/21

📰 ニュースIndustry & Market MovesModels & Research

要点

  • 本論文では、データ作成を敵対的なゲームとして捉えることで、事後学習(ポストトレーニング)用の高品質なマルチターン会話データを生成する新手法「Adversarial Arena」を提案している。
  • アタッカー(プロンプト作成)とディフェンダー(応答生成)を複数チームが担うことで、従来のクラウドソーシングや純粋な合成データよりも多様で複雑なデータを得やすくしている。
  • 米国・欧州のトップ大学所属の10チームによる競技を実施し、サイバーセキュリティにおけるLLMの安全アライメントに焦点を当てた19,683件のマルチターン会話を生成した。
  • 得られたデータセットでオープンソースモデルを微調整したところ、セキュアなコード生成でCyberSecEval-Instructが18.47%、CyberSecEval-MITREが29.42%改善するなど、定量的な効果が示された。

Abstract

後学習(post-training)の大規模言語モデルには、多様で高品質なデータが必要ですが、それは特に低リソース領域やマルチターン会話において、入手がまれでコストも高いという課題があります。一般的な解決策としてはクラウドソーシングや合成生成が挙げられますが、どちらも品質が低い、または多様性が不足したデータになりがちです。そこで本論文では、データ生成を敵対的なタスクとして捉えることで高品質な会話データセットを構築するための「Adversarial Arena(敵対的アリーナ)」を提案します。攻撃者はプロンプトを作成し、守る側(defender)は応答を生成します。複数チーム間のこのインタラクティブな競争は、自然に多様で複雑なデータを生み出します。本手法の有効性は、米国および欧州のトップ大学から選出した10の学術チームが参加し、それぞれが攻撃者または守る側のボットを構築する競争を実施することで検証しました。競争は、サイバーセキュリティにおけるLLMの安全性アライメントに焦点を当て、19,683件のマルチターン会話を生成しました。このデータセットでオープンソースのモデルを微調整したところ、CyberSecEval-Instructにおいて安全なコード生成が18.47%改善し、CyberSecEval-MITREにおいては29.42%改善しました。