ベルマン完全性なしのFitted Q評価：定常重み付けによる手法

arXiv stat.ML / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

オフポリシー強化学習におけるFitted Q-evaluation（FQE）は、既存理論ではベルマン完全性を前提とすることが多いが、現実ではこの条件が満たされないことがしばしばある。
著者らは、ターゲット方策の定常分布に基づくL^2ノルムではベルマン作用素が収縮的である一方、標準的なFQEの回帰は行動分布の下で最適化されているという「ノルムの不一致」を指摘する。
この不一致を解消するために、各ベルマン回帰ステップを定常密度比の推定値で再重み付けする「定常重み付け」を提案する。
再重み付けにより、更新がターゲットの定常分布の下で行われたのと同様の振る舞いになり、ベルマン完全性なしで収縮性を回復することを狙う。
Bairdの古典的反例を含む実験により、オフポリシーのサンプリング下でも定常重み付けがFQEを安定化し得ることが示される。

Abstract

Fitted Q-evaluation（FQE）は強化学習におけるオフポリシー評価のための基礎的手法ですが、既存の理論は通常、関数クラスのベルマン完全性に依拠しており、この条件は実際の場面でしばしば破られます。これは本質的な規範の不一致によるものです。すなわち、ベルマン作用素は、ターゲット方策の定常分布が誘導するL^2ノルムにおいてγ収縮的であるのに対し、標準的なFQEは行動分布のもとでベルマン回帰を当てはめます。この不一致を解消するために、時間差学習におけるエンファシック・ウェイティングに着想を得て、定常密度比の推定値に基づいて、各ベルマン回帰ステップを再重み付けします。これにより、更新がターゲットの定常分布のもとで行われたかのように振る舞い、ベルマン完全性がなくても収縮性を回復しつつ、回帰に基づく評価の単純さを維持します。Bairdの古典的反例を含む示唆的な実験により、定常重み付けがオフポリシーサンプリング下でFQEを安定化できることが示されます。

なぜあなたのブランドはChatGPTに見つけられないのか（そして直し方）

Dev.to

ノーフリーランチ定理（No Free Lunch Theorem）— ディープダイブ＋問題：ビットを反転

Dev.to

Salesforce Headless 360：ブラウザなしでCRMを動かす

Dev.to

RAGシステムを本番運用する：エンタープライズ向けナレッジ検索の構築

Dev.to

2026年におけるネイティブ開発とクロスプラットフォーム開発の違いとは？

Dev.to

ベルマン完全性なしのFitted Q評価：定常重み付けによる手法

要点

Abstract

関連記事

なぜあなたのブランドはChatGPTに見つけられないのか（そして直し方）

ノーフリーランチ定理（No Free Lunch Theorem）— ディープダイブ＋問題：ビットを反転

Salesforce Headless 360：ブラウザなしでCRMを動かす

RAGシステムを本番運用する：エンタープライズ向けナレッジ検索の構築

2026年におけるネイティブ開発とクロスプラットフォーム開発の違いとは？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer