TSN-Affinity:類似度に基づく継続的オフライン強化学習のためのパラメータ再利用

arXiv cs.LG / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、時系列で収集されたデータセットから複数タスクを学びつつ、学習済みタスクの性能を維持する継続的オフライン強化学習(CORL)の手法としてTSN-Affinityを提案している。
  • TSN-AffinityはTinySubNetworksとDecision Transformerを組み合わせ、行動の適合性と潜在空間の類似度に基づいてタスクをルーティングし、RLに配慮した知識共有を実現する。
  • 本手法は、リプレイベースのCORLが抱えるメモリオーバーヘッドや、リプレイされたサンプルと新しい方策の間の分布ミスマッチといった弱点に対処することを狙っている。
  • AtariおよびFranka Emika Pandaの操作シミュレーション(離散・連続制御の両方)で評価した結果、疎なSubNetworksによって高い保持(retention)が得られ、ルーティングによりマルチタスク性能がさらに向上した。
  • 著者らは、類似度に導かれたアーキテクチャ的なパラメータ再利用が、CORLにおいてリプレイベース戦略に代わる有望な選択肢になり得ると結論づけている。