概要:連続的なシナリオのための Generative Flow Networks(CFlowNets)は、流れとリトリーバルネットワークを用いて確率的方策を学習することにより、逐次意思決定タスクを解くことに有望であることを示しています。
最先端の強化学習(RL)アルゴリズムと比較して示された効率にもかかわらず、ロボット制御タスクにおける実用的な適用は、リトリーバルネットワークの事前訓練に依存していることにより制約されます。
この依存は、事前訓練データがすぐに利用できない、あるいは現在の環境を代表しない可能性がある動的なロボット環境に課題をもたらします。
本論文は、流れネットワークとリトリーバルネットワークの共訓練を可能にする新規な CFlowNets フレームワークである WINFlowNets を提案します。
WINFlowNets は、リトリーバルネットワークのポリシーをブートストラップするためのウォームアップフェーズから始まり、次に両ネットワークを共に訓練する共有の訓練アーキテクチャと共有リプレイバッファを用います。
シミュレートされたロボット環境での実験は、平均報酬と訓練の安定性の点で、WINFlowNets が CFlowNets および最先端の RL アルゴリズムを上回ることを示しています。
さらに、WINFlowNets は故障環境において強力な適応能力を示し、限られたサンプルデータで迅速に適応することが求められるタスクに適しています。
これらの知見は、従来の事前訓練やサンプルデータの収集が非効率的で現実的でない可能性のある、動的で故障が発生しやすいロボットシステムへの WINFlowNets の展開可能性を示しています。
WINFlowNets: ロボティクスと機械故障適応のための連続生成フロー網のウォームアップ統合訓練
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- WINFlowNetsは、連続生成フロー網(CFlowNets)内のフロー網と検索ネットワークの協調訓練フレームワークとして導入され、ロボティクスにおける逐次意思決定問題に対処する。
- 検索ネットワークのウォームアップフェーズを追加し、共有リプレイバッファを備えた共有トレーニング設定を導入することで、事前訓練への依存を排除し、フロー網と検索ネットワークの協調訓練を可能にする。
- シミュレーション環境下のロボットタスクにおいて、WINFlowNetsは平均報酬と学習の安定性の点で、CFlowNetsおよび最先端の強化学習手法を上回る。
- この手法は故障環境において高い適応性を示し、動的なロボットシステムにおいて限られたサンプルデータで効果的な学習を可能にする。)