メモリ効率のオンライン継続学習のためのプロトタイプ標本凝縮

arXiv cs.LG / 2026/3/17

📰 ニュースModels & Research

共有:

要点

本論文は、特徴抽出器を通過させた過去データを表すプロトタイプ標本を合成することにより、リハーサルベースの継続学習をメモリ効率化し、クラスごとのストレージ負荷を低減します。
訓練中に以前のデータの合成バリエーションを生成する摺動ベースのデータ拡張機構を導入し、継続学習の性能を向上させます。
従来のコアセット法とは異なり、本手法はクラスあたりのサンプル数を大幅に抑えつつ高い性能を達成し、生データの保持を回避することでプライバシー保護に寄与します。
標準ベンチマークでの実験は、本手法が大規模データセットや多数のタスクに対してもスケールすることを示しており、強いスケーラビリティを示唆しています。

要約: リハーサルベースの継続学習（CL）は、以前のタスクのサンプルの一部を再現のために保持することで、破局的忘却を緩和します。既存の研究は主にコアセット選択戦略を通じたメモリストレージの最適化に焦点を当てています。これらの方法は有効ですが、満足のいく性能を維持するためには、クラスごとに大量のサンプル（SPC）を格納する必要があることが多く、20を超えることも珍しくありません。本研究では、特徴抽出器を通過させたときに代表的なプロトタイプを形成できるプロトタイプ的標本を合成・格納することで、メモリフットプリントをさらに圧縮することを提案します。これらの標本は代表性のおかげで、少数のサンプルのみを用いて以前の知識をモデルに保持させることを可能にしつつ、プライバシーを保護します。さらに、トレーニング中に以前のデータの合成的なバリアントを生成する摂動ベースの拡張機構を導入し、それによってCLの性能を向上させます。広く用いられているベンチマークデータセットと設定での広範な評価は、提案アルゴリズムが既存のベースラインと比較して優れた性能を発揮することを示しており、特に大規模データセットと多くのタスクを含むシナリオで顕著です。

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

メモリ効率のオンライン継続学習のためのプロトタイプ標本凝縮

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer