マルコフ・リスク尺度とマルチパターン・リスク近似による強化学習

arXiv cs.LG / 2026/5/4

📰 ニュースModels & Research

共有:

要点

この論文は、リスク回避型の有限ホライゾン・マルコフ決定過程に対し、「ミニバッチ・メジャー」と呼ばれる新しいマルコフ整合的リスク尺度のクラスを導入します。
「マルチパターン」リスク回避型問題を定義し、線形システムの設定を一般化することで、構造化されたリスクのモデリング範囲を広げます。
これらの考え方を、マルチパターンQファクター近似を用いた特徴量ベースのQ学習に統合します。
指数的に依存する項を含む高確率の後悔（regret）評価 O(H^2 N^H sqrt(K)）を証明し、さらに後方の方策評価ステップを簡素化する経済的な改良版も提案します。
確率的な割当問題と短ホライゾンの多腕バンディットで理論を実証します。

\mathcal{O}\big(H^2 N^H \sqrt{ K}\big) $を証明します。ここで$ H $はホライゾン、$ N $はミニバッチサイズ、$ K $はエピソード数です。また、方策評価（後ろ向き）ステップを合理化する、経済的なバージョンの$ Q$ 学習法も提案します。理論結果は、確率的割当問題および短ホライゾンのマルチアームド・バンディット問題上で示します。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

Dev.to

マルコフ・リスク尺度とマルチパターン・リスク近似による強化学習

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」