RLHFおよびSGLDのためのテール（裾）対応・情報理論的汎化

arXiv stat.ML / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、損失／報酬が重い裾（heavy-tailed）をもつ場合に、従来のKL/MGF（モーメント母関数）に基づく上界が成立しない状況を扱うため、RLHFおよび確率的最適化に対するテール対応の情報理論的汎化枠組みを導入する。
尾の重さを表すために、サブワイブル（sub-Weibull）パラメータ\(\theta\)を用い、\(\theta=2\)をサブガウス、\(\theta=1\)をサブ指数、\(0<\theta<1\)を真に重い裾のレジームに対応づける。
中核となる技術的結果は、シフトした対数を用いた\(f_\theta\)-ダイバージェンスにより、測度変換（change-of-measure）の期待値を制御するデコリレーション（非相関化）補題であり、MGF議論を避けつつRényiダイバージェンスとの明示的な比較も行う。
著者らは、サブワイブル過程に対する最大不等式およびDudley／チェイニング（chaining）による上界を開発し、計算量が\(\log^{1/\theta}\)およびエントロピー^{1/\theta}のスケーリングで表されることを示す。さらに、期待値型および高確率型のPAC-Bayes汎化保証を導出する。
この枠組みを、重い裾の報酬を伴うRényi正則化RLHF、および重い裾の勾配ノイズを伴うSGLDに適用し、新たに得られたテール依存の上界が、現実的なRL設定における汎化挙動をどのように特徴づけられるかを示す。

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

RLHFおよびSGLDのためのテール（裾）対応・情報理論的汎化

要点

関連記事

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵