大規模言語モデルにおける選択的パラメータ最適化による効率的なタスク適応

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、LLMを特定ドメインのタスク向けに微調整する際に、パラメータ更新によって汎用的な知識が上書き・忘却され、汎化性能や転移可能性が低下するという課題を扱います。
  • パラメータ要素ごとの重要度を評価し、「コアパラメータ」(汎用言語能力に重要)と「非コアパラメータ」(タスク固有により敏感)に分ける手法を提案しています。
  • 微調整ではコアパラメータを固定し、非コアパラメータのみを学習(更新)することで、事前学習能力の保持を狙います。
  • GPT-J と LLaMA-3 を用いた、科学・医療・物理タスクでの広範な実験により、この方法が壊滅的忘却(catastrophic forgetting)を抑えつつ適応性を高めることを示しました。
  • まとめると、本研究は「汎用タスク」と「ドメインタスク」に対するパラメータの感度の違いを活かした、選択的パラメータ最適化の方針を示しています。