Abstract
本稿では、大規模言語モデルの継続的なマルチドメイン微調整のためのモジュール型アーキテクチャであるBrainstacksを提案する。Brainstacksは、推論時に共有された凍結済みベースの上に、凍結されたアダプタスタックを加法的に組み合わせることで、領域の専門知識をパッケージ化する。相互に連動する5つのコンポーネント: (1) QLoRAの4ビット量子化とrsLoRAスケーリングの下で、QLoRA 4-bit量子化のもとで、7つの全トランスフォーマープロジェクションにわたってShazeer方式のノイズ付きtop-2ルーティングを行うMoE-LoRA;(2) 学習済みスタックを凍結して新しいスタックを追加することで残差ブースティングを行う内側ループ;(3) カリキュラム順に依存関係を並べた、逐次的なドメイン別スタックを学習する外側ループ;(4) ランダム化SVDによるnull空間射影で、新しいスタックを先行方向に直交する部分空間に制約し、分離した場合にゼロ忘却を達成;(5) 実験的に発見されたドメイン結合ターゲットに基づいて学習される、アウトカム(結果)ベースのシグモイド・メタルータが、スタックに対して選択的な重み付けを行い、クロスドメイン合成を可能にする。2つの境界実験: (6) ランダムに初期化したモデルに対するPSN事前学習;(7) ドメインごとのRL(DPO/GRPO)により、SFT後のアラインメントとの適合性を検証する。TinyLlama-1.1B(4ドメイン、9スタック)およびGemma 3 12B IT(5ドメイン、10スタック)で検証したところ、パラメータ数を一致させた単一LoRAと比べてMoE-LoRAは収束が2.5倍速く、残差ブースティングは単一スタックの上限を突破し、ルーティングされたシステムは、ゲートなしでスタックを単純に蓄積した場合に壊れてしまう生成品質を回復した。中心的な発見は次のとおりである:アウトカムベースのルータは、ドメインスタックがドメイン固有の知識ではなく、移転可能な認知プリミティブ(指示追従の明瞭さ、数値推論、手続き的ロジック、チェーン・オブ・ソート構造)を符号化していることを見出す。特に、それらのスタックに医療データがゼロであるにもかかわらず、医療プロンプトは97%のケースでchat+mathスタックへルーティングされる。