HiEdit:階層型強化学習による生涯にわたるモデル編集

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HiEditは、デプロイ済みLLMにおける陳腐化または誤った知識を逐次的に修正しつつ、他の入力に対する意図しない副作用を低減するための、生涯にわたるモデル編集アプローチを導入します。
  • 本研究は、知識は密な全ての層に一様に保存されるのではなく層ごとに保存されると主張しており、そのため各編集に対して同じパラメータ摂動の集合をすべての編集で適用することを回避します。
  • 階層型強化学習を用いることで、HiEditは各編集インスタンスにおいて知識関連性が最も高い層を適応的に選択し、スパースで局所的な更新を促すための固有報酬を追加します。
  • 複数のLLMに対する実験により、HiEditはRLEditより平均8.48%改善し、また編集あたりおよそ半数の層だけを摂動することで、壊滅的忘却のリスクの緩和に寄与することが示されます。
  • 著者らは、提案フレームワークの再現とさらなる実験を支援するため、GitHub上でオープンソースコードを提供しています。

Abstract

生涯にわたるモデル編集(LME)は、展開されたLLMにおいて、無関係な入力への副作用を最小限に抑えつつ、時代遅れまたは不正確な知識を逐次的に修正することを目指します。しかし既存の手法は、通常、編集の各インスタンスすべてに対して、LLMの固定的で密な層の集合へパラメータ摂動を適用します。このやり方は直感に反します。というのも、モデルは異なる知識の断片を異なる層に格納している、と私たちは仮説を立てているからです。層ごとのこの特異性を無視すると、新しい知識の統合における適応性が損なわれ、さらに一般的な知識だけでなく、以前に編集された知識に対しても壊滅的忘却が生じ得ます。これに対処するために、私たちはHiEditを提案します。HiEditは、階層型強化学習の枠組みであり、各編集インスタンスに対して最も知識に関連する層を適応的に識別します。動的かつインスタンスを意識した層選択を可能にし、さらに疎性(スパース性)に対する内在報酬を組み込むことで、HiEditは正確で局所的な更新を実現します。さまざまなLLMでの実験により、HiEditは、各編集で層の半分だけを摂動させるにもかかわらず、競合手法であるRLEditの性能を平均8.48%向上させることが示されています。私たちのコードは以下で公開しています: https://github.com/yangfanww/hiedit.