大規模言語モデルにおける選択的パラメータ最適化による効率的なタスク適応
arXiv cs.CL / 2026/4/21
📰 ニュースModels & Research
要点
- 本論文は、LLMを特定ドメインのタスク向けに微調整する際に、パラメータ更新によって汎用的な知識が上書き・忘却され、汎化性能や転移可能性が低下するという課題を扱います。
- パラメータ要素ごとの重要度を評価し、「コアパラメータ」(汎用言語能力に重要)と「非コアパラメータ」(タスク固有により敏感)に分ける手法を提案しています。
- 微調整ではコアパラメータを固定し、非コアパラメータのみを学習(更新)することで、事前学習能力の保持を狙います。
- GPT-J と LLaMA-3 を用いた、科学・医療・物理タスクでの広範な実験により、この方法が壊滅的忘却(catastrophic forgetting)を抑えつつ適応性を高めることを示しました。
- まとめると、本研究は「汎用タスク」と「ドメインタスク」に対するパラメータの感度の違いを活かした、選択的パラメータ最適化の方針を示しています。
関連記事

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA
Grok-2 Mini と Grok-3(mini)はどこにあるのか?
Reddit r/LocalLLaMA