離散フローマッチング・ポリシー最適化

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ポリシーグラディエント法を用いて離散フローマッチング（DFM）モデルを強化学習で微調整するための、統一的な枠組みである離散フローマッチング・ポリシー最適化（DoMinO）を提案する。
DFMのサンプリングを、多段階のマルコフ決定過程（MDP）として組み替え、RL微調整における報酬最大化を、バイアスのかかった補助推定器や尤度サロゲートに依存せずに、解釈可能で頑健なRL目的関数へと変換する。
微調整中のポリシー崩壊を抑えるために、DoMinOは、微調整後の分布を事前学習済み分布に近づける新しい全変動（total variation）正則化項を追加する。
著者らは理論的な誤差および正則化項の上界を提示し、離散化誤差の上界や、正則化項に対する計算可能な境界を含める。
規制（レギュラトリー）DNA配列設計に関する実験では、既存の報酬駆動ベースラインよりも予測エンハンサー活性が向上し、配列の自然さも改善することが示され、さらに正則化により自然な配列分布への整合性が一層高まる。

要旨: 我々は、広範な方策勾配法のクラスのもとで、強化学習（RL）による離散フローマッチング（Discrete Flow Matching: DFM）モデルの微調整を統一的に扱う枠組み、離散フローマッチング方策最適化（Discrete flow Matching policy Optimization: DoMinO）を提案する。主要な着想は、DFMのサンプリング手順を多段のマルコフ決定過程として捉えることである。この見方により、微調整における報酬最大化を堅牢なRL目的として、単純かつ透明に再定式化できる。したがってDoMinOは、元のDFMサンプラーを保持するだけでなく、多くの先行するRL微調整手法で用いられている、偏りのある補助推定量や尤度の代理（likelihood surrogate）を回避する。方策の崩壊を防ぐために、微調整後の分布を事前学習分布に近づける新しい全変動（total-variation）正則化項も導入する。理論的には、DoMinOの離散化誤差に関する上界を確立し、正則化項に対する計算可能な上界も導出する。実験では、規制DNA配列設計においてDoMinOを評価する。DoMinOは、従来の最良の報酬駆動ベースラインよりも、より強い予測エンハンサー活性とより良い配列の自然さを達成する。さらに、正則化は、強い機能性能を維持しつつ、自然な配列分布との整合性を一層改善する。これらの結果は、DoMinOが制御可能な離散配列生成のための有用な枠組みであることを示している。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

離散フローマッチング・ポリシー最適化

要点

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer