MSSR: 継続的LLMファインチューニングのためのメモリ認識適応リプレイ

arXiv cs.LG / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • MSSRは、大規模言語モデルの継続的ファインチューニングのための新しいリプレイフレームワークであり、サンプルのメモリ強度を適応的に推定し、破滅的忘却を防ぐためにリハーサルをスケジューリングします。
  • ヒューリスティックに依存したり高い計算コストがかかる従来のリプレイ手法の限界に対応し、メモリ認識型スケジューリングアプローチを導入しています。
  • 3つのバックボーンモデルと11の連続タスクにわたる実験で、MSSRは特に推論重視および多肢選択式ベンチマークで優れた性能を示しています。
  • 迅速な適応と既存知識の保持のバランスを取り、データ分布が進化する動的環境に適しています。
  • MSSRの改善は、実世界シナリオで展開されるLLMのより堅牢で効率的な継続学習を可能にする重要な進歩を示しています。

計算機科学 > 機械学習

arXiv:2603.09892 (cs)
[2026年3月10日に投稿]

題目:MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Yiyang Lu と他3名の著者による論文「MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning」のPDFを表示
PDFを表示 HTML(実験的)
要旨:大規模言語モデル(LLM)の継続的微調整(continual fine-tuning)は、タスクやデータ分布が時間とともに変化する動的な環境でこれらのモデルが配備されるにつれて、ますます重要になってきている。強い適応性は新しい知識の迅速な獲得を可能にする一方で、連続的な学習の過程で以前に獲得した能力が劣化してしまう、破滅的忘却(catastrophic forgetting)という問題をLLMにもたらす。固定されたインターリーブ再生(fixed interleaved replay)、精度に基づく教師あり(accuracy-supervised)、損失駆動のスケジューリング(loss-driven scheduling)といった既存のリプレイ(replay)ベースの戦略には限界がある。これらのいくつかは経験則に依存しており忘却の軽減が部分的にとどまるが、他のものは性能を改善しつつも、かなりの計算オーバーヘッドを伴う。本論文では、連続的微調整下における保持ダイナミクス(retention dynamics)に動機づけられ、メモリに着想を得たサンプラとスケジューラによるリプレイ(Memory-Inspired Sampler and Scheduler Replay: MSSR)を提案する。MSSRは、サンプルレベルのメモリ強度を推定し、破滅的忘却を緩和しながら高速な適応を維持するために、適応的な間隔でリハーサル(rehearsal)をスケジュールする、経験リプレイ(experience replay)フレームワークである。3つのバックボーンモデルと11の連続タスクにわたる大規模な実験の結果、MSSRは最先端のリプレイ基準手法を一貫して上回り、とりわけ推論集約型および複数選択(multiple-choice)のベンチマークで顕著な改善が見られた。
分野: 機械学習 (cs.LG); 人工知能 (cs.AI); 計算と言語 (cs.CL)
引用: arXiv:2603.09892 [cs.LG]
  (もしくはこの版の場合は arXiv:2603.09892v1 [cs.LG]
  https://doi.org/10.48550/arXiv.2603.09892
詳細を学ぶためにフォーカス
DataCite による arXiv 発行 DOI

投稿履歴

著者: Yiyang Lu [メールを見る]
[v1] 2026年3月10日(火) 16:49:44 UTC (735 KB)
全文テキストへのリンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.LG
< 前   |   次 >
Change to browse by:
BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供データ:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers切り替え
Connected Papers (Connected Papersとは?)
Litmaps切り替え
Litmaps (Litmapsとは?)
scite.ai切り替え
scite Smart Citations (Smart Citationsとは?)
コード、データ、メディア

この記事に関連するコード、データ、メディア

alphaXiv切り替え
alphaXiv (alphaXivとは?)
コードへのリンク切り替え
論文向けCatalyzeXコードファインダー (CatalyzeXとは?)
DagsHub切り替え
DagsHub (DagsHubとは?)
GotitPub Toggle
Gotit.pub (GotitPubとは?)
Huggingface Toggle
Hugging Face (Huggingfaceとは?)
コードへのリンク Toggle
Papers with Code (Papers with Codeとは?)
ScienceCast Toggle
ScienceCast (ScienceCastとは?)
デモ

デモ

Replicate Toggle
Replicate (Replicateとは?)
Spaces Toggle
Hugging Face Spaces (Spacesとは?)
Spaces Toggle
TXYZ.AI (TXYZ.AIとは?)
関連論文

レコメンダーおよび検索ツール

Influence Flowerへのリンク Toggle
Influence Flower (Influence Flowerとは?)
Coreレコメンダー Toggle
CORE Recommender (COREとは?)
IArxivレコメンダー Toggle
IArxiv Recommender (IArxivとは?)
About arXivLabs

arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト

arXivLabsは、協力者が当サイト上で新しいarXivの機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabsに取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという、当社の価値観を受け入れ、それを尊重してきました。arXivはこれらの価値観にコミットしており、それらを遵守するパートナーとのみ協働します。

arXivのコミュニティに価値をもたらすプロジェクトのアイデアはありますか? arXivLabsについてもっと知る

返却形式: {"translated": "翻訳されたHTML"}