GAIN：ドメイン適応のための乗算的モジュレーション

arXiv cs.LG / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LLMのドメイン適応は、全量ファインチューニングやLoRAのような一般的な手法によってモデルの重み空間に新しい方向が導入されるため、壊滅的忘却を引き起こし得る。
本論文はGAIN（Multiplicative Modulation）を提案し、乗算的スケーリング W_new = S * W により既存の特徴を再度強調する。ここでSは学習された対角行列で、注意出力プロジェクションに適用し、さらに必要に応じてFFNにも適用する。
5つのモデルファミリ（774M〜70B）にわたる実験と、8回の連続的なドメイン適応では、GAIN-FFNがインドメインの検証PPLにおいてLoRAと同等の性能を示す。
重要なのは、GAIN-FFNが忘却を抑制する点である。以前に学習したドメインは、検証PPLで7〜13%改善する一方、LoRAはそれらを18〜36%悪化させる。たとえば複数回の適応後、BoolQはLoRAよりもGAIN-FFNのほうが劣化がはるかに小さい。
GAINは控えめなパラメータオーバーヘッド（モデルあたり46K〜230K）を導入するだけで、事前学習済みの重みに取り込むことができるため、追加の推論コストはゼロである。

要旨: 新しい領域にLLMを適応させると、標準的な手法（フルファインチューニング、LoRA）が重み空間に新たな方向性を注入するため、忘却が生じます。私たちはGAINを提案します。これは、既存の特徴を乗法的モジュレーション W_new = S * W によって再び強調し直すものです。学習された対角行列Sを、注意出力の投影に適用し、必要に応じてFFNにも適用します。この原理は神経科学におけるゲイン・モジュレーションに対応しており、選択性を保ったまま応答の強さをスケーリングすることで、ニューロンが文脈に適応することを模倣しています。
私たちは、4つの系統から5つのモデル（774M〜70B）にGAINを評価し、8つの領域にわたって逐次的に適応させます。GAIN-FFNはインドメイン適応においてLoRAと同等ですが、過去に学習した領域への影響は逆です。すなわち、GAIN-FFNはそれらを検証PPLで7-13%改善する一方、LoRAは18-36%悪化させます。下流の精度でもこのパターンが確認できます。たとえば、Qwen2.5に対して7回の逐次適応を行った後、GAIN-FFNはBoolQをわずか0.8%だけ劣化させるのに対し、LoRAはそれを14.9%損ないます。GAINはモデルあたり46K〜230K個のパラメータを追加し、ゼロの推論コストで事前学習済みの重みに吸収できます。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

GAIN：ドメイン適応のための乗算的モジュレーション

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透