エントロピー正則化を取り入れたフロー整合ポリシー

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FMERは、常微分方程式に基づくオンライン強化学習フレームワークを導入し、ポリシーをフロー整合（flow matching）でパラメータ化し、確率分布の直線的経路に沿って行動をサンプリングします。
探索の改善を目的に原理的最大エントロピー最適化を可能にする、扱いやすいエントロピー目的関数を導出します。
この手法は、候補集合から導出されたアドバンテージ重み付きターゲット速度場を活用してポリシー更新を高価値領域へ向けさせ、モデルの生成的性質を活用します。
スパースなマルチゴールFrankaKitchenベンチマークでの経験的結果は、FMERが最先端手法を上回り、MuJoCoでも競争力を維持しつつ、トレーニング時間を短縮することを示しています（QVPOのような重い拡散ベースラインより約7倍速く、効率的な変種より10〜15%速い）。
この知見は、拡散ベースの強化学習におけるサンプル効率と計算資源の有意な向上を示唆しており、ロボティクスやその他のAI制御システムへの潜在的影響があると考えられます。

要旨：
拡散ベースのポリシーは、複雑で非ガウス分布を表現できる能力があるため、強化学習（RL）において顕著な人気を集めています。
確率微分方程式（SDE）に基づく拡散ポリシーは、厳密なエントロピーの計算が困難であるため、間接的なエントロピー制御に依存することが多く、さらに逐次的なノイズ除去チェーンを介した計算的に膨大なポリシー勾配にも悩まされます。
これらの問題を克服するために、Flow Matching Policy with Entropy Regularization (FMER) を提案します。これは、常微分方程式（ODE）ベースのオンラインRLフレームワークです。
FMERは流れマッチングを用いてポリシーをパラメータ化し、最適輸送に動機づけられた直線的な確率経路に沿って行動をサンプリングします。
FMERはモデルの生成的性質を活用して、候補集合からアドバンテージ重み付きのターゲット速度場を構築し、ポリシー更新を高価値領域へと誘導します。
扱いやすいエントロピー目的を導出することにより、FMERは探索を強化するための原理的な最大エントロピー最適化を可能にします。
スパースなマルチゴールFrankaKitchenベンチマークでの実験は、FMERが最先端の手法を上回ることを示す一方、標準のMuJoCoベンチマークでも競争力を維持していることを示しています。
さらに、FMERは重い拡散ベースのベースライン（QVPO）と比較して学習時間を7倍短縮し、効率的なバリアントと比較して相対的に10〜15％短縮します。

返却形式: {"translated": "翻訳されたHTML"}

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

エントロピー正則化を取り入れたフロー整合ポリシー

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも