LLMの固有フィンガープリント:モデル窃盗には継続学習だけでは不十分
arXiv cs.CL / 2026/4/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、提案されてきたウォーターマーキングが継続学習や開発の影響に対して十分に頑健でない可能性があると指摘し、LLMの帰属と著作権保護が脆弱になり得ると論じています。
- 著者らは、注意(attention)パラメータ行列の各層における標準偏差分布などの「内在的なモデル特性」に基づく、頑健なLLMフィンガープリント手法を提案しています。
- これらの分布ベースの“サイン”は大規模な継続学習の後でも安定しており、モデルの系譜(lineage)特定や潜在的な侵害検出に利用できると報告されています。
- 複数のモデルファミリーに対する実験により、本手法がモデル認証に有効であることが検証されています。
- 本研究では、Huaweiの最近リリースされたPangu Pro MoEモデルが、Qwen-2.5 14Bからアップサイクルされた可能性があり、スクラッチから学習したのではないという証拠も示しており、盗用やIP・著作権侵害の懸念を示唆しています。




