大規模言語モデルにおける選択的パラメータ最適化による効率的なタスク適応

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

共有:

要点

本論文は、LLMを特定ドメインのタスク向けに微調整する際に、パラメータ更新によって汎用的な知識が上書き・忘却され、汎化性能や転移可能性が低下するという課題を扱います。
パラメータ要素ごとの重要度を評価し、「コアパラメータ」（汎用言語能力に重要）と「非コアパラメータ」（タスク固有により敏感）に分ける手法を提案しています。
微調整ではコアパラメータを固定し、非コアパラメータのみを学習（更新）することで、事前学習能力の保持を狙います。
GPT-J と LLaMA-3 を用いた、科学・医療・物理タスクでの広範な実験により、この方法が壊滅的忘却（catastrophic forgetting）を抑えつつ適応性を高めることを示しました。
まとめると、本研究は「汎用タスク」と「ドメインタスク」に対するパラメータの感度の違いを活かした、選択的パラメータ最適化の方針を示しています。

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA

Reddit r/LocalLLaMA