RECAP: エージェント型パイプラインを用いたLLMの訓練データから著作権で保護されたデータを再現する

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

RECAPは、LLMの出力から記憶された訓練データを引き出し検証するためのエージェント型パイプラインを提案し、モデルが何を見てきたかを暴露することを目的としています。
初期抽出を参照パッセージと照合する二次言語モデルによって評価し、次の生成を導く最小限の訂正ヒントを生成する、フィードバック駆動型ループを採用します。
アラインメント（整合性）による拒否を対処するため、RECAPにはその障壁を検出・克服するジャイルブレイキングモジュールが含まれています。
著者らは30冊以上の全編にわたる新しいベンチマーク EchoTrace でRECAPを評価し、抽出品質の顕著な向上を報告します（GPT-4.1を用いた場合、ROUGE-Lが0.38から0.47へ、約24%の増加）。
本研究はデータ出所、著作権、モデルガバナンスに関する重要な示唆を示し、LLM訓練データの監査機会とセキュリティリスクの両方を浮き彫りにします。

大規模言語モデル（LLM）の訓練データを検査できない場合、モデルが何を見たのかをどう知ることができるだろうか。私たちは、モデル自身がターゲットとなる内容を自由に再現する場合に最も説得力のある証拠が得られると信じています。そこで、出力から memorized training data を引き出し検証するためのエージェント型パイプラインである RECAP を提案します。RECAP の核となるのは、初期の抽出試行を二次の言語モデルが評価し、出力を参照パッセージと比較して差異を特定します。これらの差異は最小限の訂正ヒントに翻訳され、それがターゲットモデルにフィードバックされ、後続の生成を導きます。さらに、アラインメント誘発の拒否に対処するため、RECAP にはその障壁を検出・克服するジャイルブレイキングモジュールが含まれています。我々は EchoTrace という、30冊以上の全編にわたる新しいベンチマークで RECAP を評価し、結果は RECAP が単一反復アプローチよりも大きな利得をもたらすことを示しています。例えば、GPT-4.1 を用いた場合、著作権で保護されたテキスト抽出の平均 ROUGE-L スコアは 0.38 から 0.47 に改善され、ほぼ 24% の増加となりました。