アライメントの『ハック・ア・モール』:微調整が大規模言語モデルにおける著作権書籍の逐語的想起を再活性化する
arXiv cs.CL / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが学習データを記憶しないという主張や、RLHF、システムプロンプト、出力フィルタといった保護策があるにもかかわらず、微調整によって著作権書籍の逐語的想起(verbatim recall)が再活性化され得ると論じている。
- それは、プロット要約を全文へ変換するよう微調整すると、GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1といったモデルが、保持された(未使用の)著作権書籍の最大85〜90%を再現できること、また場合によっては460語を超える単一のコピー区間が見られることを報告している。
- 抽出(想起)は著者間で一般化することが示されている。すなわち、村上春樹のみで微調整しても、30人超の他の著者による作品の逐語的想起が解放され得る。また、ランダムな著者ペアやパブリックドメインでの微調整でも同様の結果が観測される。
- 著者らはこの効果を、事前学習から生じたモデル重みに保存された潜在的な記憶(latent memorization)に起因するとしており、合成テキストによる微調整では抽出がほぼゼロになる点を指摘している。
- 複数の異なる提供元のモデルで同様の記憶領域が観察されるため、本論文はこれを業界全体に関わるセキュリティ上の脆弱性として位置づけており、保護された表現の再現に対する「適切な措置(adequate measures)」をめぐる継続中の法的議論への含意があるとしている。




