LLMの固有フィンガープリント:モデル窃盗には継続学習だけでは不十分

arXiv cs.CL / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、提案されてきたウォーターマーキングが継続学習や開発の影響に対して十分に頑健でない可能性があると指摘し、LLMの帰属と著作権保護が脆弱になり得ると論じています。
  • 著者らは、注意(attention)パラメータ行列の各層における標準偏差分布などの「内在的なモデル特性」に基づく、頑健なLLMフィンガープリント手法を提案しています。
  • これらの分布ベースの“サイン”は大規模な継続学習の後でも安定しており、モデルの系譜(lineage)特定や潜在的な侵害検出に利用できると報告されています。
  • 複数のモデルファミリーに対する実験により、本手法がモデル認証に有効であることが検証されています。
  • 本研究では、Huaweiの最近リリースされたPangu Pro MoEモデルが、Qwen-2.5 14Bからアップサイクルされた可能性があり、スクラッチから学習したのではないという証拠も示しており、盗用やIP・著作権侵害の懸念を示唆しています。

Abstract

大規模言語モデル(LLM)は、学習コストが増大し、モデルの再利用が一般化するにつれて、著作権および知的財産に関する重大な課題に直面している。モデルの所有権を保護するために透かし(ウォーターマーキング)技術が提案されてきた一方で、それらは継続学習や開発に対して頑健でない可能性があり、モデルの帰属(アトリビューション)や著作権保護に対する深刻な脅威となりうる。本研究では、内在的なモデル特性に基づく、単純でありながら効果的な頑健なLLMフィンガープリンティングの手法を導入する。異なる層にわたる注意(attention)パラメータ行列の標準偏差分布が示すパターンは、長時間の継続学習の後でも安定して保持されることを見いだした。これらのパラメータ分布の署名は、モデルの系譜を確実に識別し、潜在的な著作権侵害を検出するための頑健なフィンガープリントとして機能する。複数のモデルファミリーに対する実験的検証により、本手法がモデル認証に有効であることを示す。とりわけ、本調査は、Huaweiによって最近リリースされたPangu Pro MoEモデルが、スクラッチからの学習ではなく、アップサイクリング技術によってQwen-2.5 14Bモデルから派生していることを示す証拠を明らかにした。これにより、モデルの盗用、著作権侵害、および情報の捏造(ファブリケーション)が起こり得るケースが示唆される。これらの結果は、大規模モデル開発における知的財産を保護するために、頑健なフィンガープリンティング手法の開発が極めて重要であることを裏づけるとともに、意図的な継続学習だけではモデルの出自を完全に隠すことは不十分であることを強調している。