アドバーサリアル・アリーナ：インタラクティブな競争によるデータ生成のクラウドソーシング

arXiv cs.AI / 2026/4/21

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

本論文では、データ作成を敵対的なゲームとして捉えることで、事後学習（ポストトレーニング）用の高品質なマルチターン会話データを生成する新手法「Adversarial Arena」を提案している。
アタッカー（プロンプト作成）とディフェンダー（応答生成）を複数チームが担うことで、従来のクラウドソーシングや純粋な合成データよりも多様で複雑なデータを得やすくしている。
米国・欧州のトップ大学所属の10チームによる競技を実施し、サイバーセキュリティにおけるLLMの安全アライメントに焦点を当てた19,683件のマルチターン会話を生成した。
得られたデータセットでオープンソースモデルを微調整したところ、セキュアなコード生成でCyberSecEval-Instructが18.47%、CyberSecEval-MITREが29.42%改善するなど、定量的な効果が示された。

Abstract

後学習（post-training）の大規模言語モデルには、多様で高品質なデータが必要ですが、それは特に低リソース領域やマルチターン会話において、入手がまれでコストも高いという課題があります。一般的な解決策としてはクラウドソーシングや合成生成が挙げられますが、どちらも品質が低い、または多様性が不足したデータになりがちです。そこで本論文では、データ生成を敵対的なタスクとして捉えることで高品質な会話データセットを構築するための「Adversarial Arena（敵対的アリーナ）」を提案します。攻撃者はプロンプトを作成し、守る側（defender）は応答を生成します。複数チーム間のこのインタラクティブな競争は、自然に多様で複雑なデータを生み出します。本手法の有効性は、米国および欧州のトップ大学から選出した10の学術チームが参加し、それぞれが攻撃者または守る側のボットを構築する競争を実施することで検証しました。競争は、サイバーセキュリティにおけるLLMの安全性アライメントに焦点を当て、19,683件のマルチターン会話を生成しました。このデータセットでオープンソースのモデルを微調整したところ、CyberSecEval-Instructにおいて安全なコード生成が18.47%改善し、CyberSecEval-MITREにおいては29.42%改善しました。

Black Hat USA

AI Business

GPT-5.5で何が変わった？AI副業・note運営で感じた“文章づくりの次の段階”

note

🌈【完全解説】GPT-5.5って何？最新AIのすごさと安全対策

note

NVIDIAが直流800V給電、AIデータセンターで推進

日経XTECH

NVIDIAの直流800V給電構想参画企業2倍、電力インフラ大手も加勢

日経XTECH

アドバーサリアル・アリーナ：インタラクティブな競争によるデータ生成のクラウドソーシング

要点

Abstract

関連記事

Black Hat USA

GPT-5.5で何が変わった？AI副業・note運営で感じた“文章づくりの次の段階”

🌈【完全解説】GPT-5.5って何？最新AIのすごさと安全対策

NVIDIAが直流800V給電、AIデータセンターで推進

NVIDIAの直流800V給電構想参画企業2倍、電力インフラ大手も加勢

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat USA

GPT-5.5で何が変わった？AI副業・note運営で感じた“文章づくりの次の段階”

🌈【完全解説】GPT-5.5って何？最新AIのすごさと安全対策

NVIDIAが直流800V給電、AIデータセンターで推進

NVIDIAの直流800V給電構想 参画企業2倍、電力インフラ大手も加勢

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIAの直流800V給電構想参画企業2倍、電力インフラ大手も加勢