人間のフィードバックに基づく個別化強化学習のためのスワップ誘導型嗜好学習

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RLHF（人間のフィードバックによる強化学習）がしばしば単一の普遍的報酬に依存しており、多様なユーザー嗜好を捉えられず、個別化を妨げると主張している。
疎なデータと表現力の高いデコーダを前提とする変分嗜好学習（VPL）において事後崩壊が生じ、潜在変数が単一の報酬を優先して無視される可能性がある。
スワップ誘導型嗜好学習（SPL）を提案し、三つの構成要素：スワップ誘導ベース正則化、嗜好付き逆自己回帰フロー（P-IAF）、適応的潜在条件付けを備え、架空のスワップアノテータと嗜好の鏡像性を活用する。
実験により、SPLは崩壊を緩和し、ユーザー固有の潜在表現を豊かにし、嗜好予測を改善することが示され、コードとデータはGitHubで公開されている。

概要：Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観と大規模AIシステムを調和させるための広く用いられているアプローチです。
しかし、RLHF は通常、単一の普遍的な報酬を前提としており、多様な嗜好を見落とし、個別化を制限します。
Variational Preference Learning (VPL) は、ユーザー固有の潜在変数を導入することでこれに対処しようとします。
その約束にもかかわらず、VPL は後方分布崩壊を生じることがあると分かりました。この現象は VAEs ではよく知られていますが、嗜好学習フレームワークではこれまで特定されたことはありませんでした。
希薄な嗜好データと過度に表現力のあるデコーダを用いると、VPL は潜在変数を無視させ、単一報酬モデルへと戻ってしまう可能性があります。
この限界を克服するために、Swap-guided Preference Learning（SPL）を提案します。
核心となるアイデアは、架空のスワップ注釈者を構築し、それらの嗜好の鏡像性を利用してエンコーダを導くことです。
SPL は3つの構成要素を導入します: (1) スワップ誘導型ベース正則化、(2) 嗜好性逆自己回帰フロー（P-IAF）、(3) 適応的潜在条件付け。
実験では、SPL が崩壊を緩和し、ユーザー固有の潜在変数を豊かにし、嗜好予測を改善することを示しています。
我々のコードとデータは https://github.com/cobang0111/SPL で利用可能です。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

人間のフィードバックに基づく個別化強化学習のためのスワップ誘導型嗜好学習

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌