要約:
継続的強化学習は、過去のタスクと将来のタスクの両方で性能を向上させることを目標に、エージェントに新しいスキルを習得させつつ、既に学習したスキルを保持させる課題です。多くの既存手法は、壊滅的忘却を緩和するためにリプレイバッファを用いたモデルフリー手法に依存しています。しかし、これらの解法は大きなメモリ要求により、しばしば大規模性の課題に直面します。神経科学から着想を得て、脳が経験を予測的な世界モデルへリプレイするのに対し、ポリシーへ直接ではない点を取り入れた ARROW (Augmented Replay for RObust World models) を提示します。これは DreamerV3 を拡張し、メモリ効率の高い分布マッチングリプレイバッファを備えたモデルベースの継続的RLアルゴリズムです。標準の固定サイズ FIFO バッファとは異なり、ARROW は2つの補完的なバッファを維持します。最近の経験のための短期バッファと、知的なサンプリングによってタスクの多様性を保持する長期バッファです。ARROW を、2つの難易度の高い継続的RL設定で評価します。1つは共通構造を持たないタスク(Atari)、もう1つは共通構造を持つタスクで、知識転送が可能なもの(Procgen CoinRun の変種)です。同サイズのリプレイバッファを備えたモデルフリーおよびモデルベースのベースラインと比較して、ARROW は共通構造を持たないタスクで忘却を著しく低減しつつ、前方転移を同程度維持します。本研究の結果は、モデルベースRLと生体由来のリプレイ手法が継続的強化学習において潜在的な可能性を示すものであり、さらなる研究が必要であることを示しています。
ARROW: ロバストな世界モデルのための拡張リプレイ
arXiv cs.LG / 2026/3/13
📰 ニュースModels & Research
要点
- ARROW は DreamerV3 を拡張した、メモリ効率の良い分布マッチングリプレイバッファを備えたモデルベースの継続的強化学習アルゴリズムであり、壊滅的忘却を緩和します。
- 最近の経験用の短期バッファと、知的なサンプリングによってタスクの多様性を保つ長期バッファという、2つの補完的なバッファを使用します。
- Atari(共通構造を持たないタスク)および Procgen CoinRun の変種(共通構造を持つタスク)での評価は、同じサイズのリプレイバッファを用いたベースラインと比較して、ARROW が忘却を著しく低減しつつ、前方転移を維持することを示しています。
- 本研究は神経科学から着想を得ており、脳が経験を予測的な世界モデルへリプレイするのに対し、ポリシーへ直接リプレイするわけではない、という点に着目しています。
- 生体由来のリプレイを用いたモデルベースRLが継続的学習に有望であることを示しており、さらなる研究の必要性を示しています。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning