これはすごい論文です!ハイパーネットワークを使ってその場で文書から LoRA を作成する。
"長い入力シーケンスは、文脈内学習、文書理解、および大規模言語モデル(LLMs)の多段推論の中心です。しかし、Transformers の自己注意コストは二次的で、推論はメモリ集約的で遅くなります。コンテキスト蒸留(CD)は情報をモデルのパラメータへ転送できますが、プロンプトごとの蒸留はトレーニングコストとレイテンシのため実用的ではありません。これらの制限に対処するため、Doc-to-LoRA(D2L)を提案します。これは、単一のフォワードパス内で近似CDを実行するようメタ学習する軽量なハイパーネットワークです。見たことのないプロンプトが与えられると、D2L はターゲット LLM 向けの LoRA アダプタを生成し、以降のクエリを元の文脈を再利用することなく回答できるようにします。これにより、ターゲット LLM の推論時のレイテンシと KV キャッシュのメモリ消費を削減します。長い文脈を前提とする needle-in-a-haystack タスクでは、D2L は文脈をニードル情報を格納するアダプタへ写像することを学習し、ターゲット LLM のネイティブなコンテキストウィンドウを4倍以上超えるシーケンス長でほぼ完璧なゼロショット精度を達成しました。計算資源が限られた実世界の QA データセットでは、D2L は標準の CD よりも優れており、ピークメモリ消費と更新レイテンシを大幅に削減します。我々は、D2L が LLMs の迅速な適応を促進し、頻繁な知識更新や個別化されたチャット挙動の可能性を開くと考えています。"
[リンク] [コメント]

