AI Navigate

アップデートアップデート最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

PrefMoE：Mixture of Experts による堅牢な嗜好モデリングと報酬学習

arXiv cs.RO / 2026/5/4

📰 ニュースModels & Research

原文を読む →

共有:

要点

PrefMoEは、嗜好データがノイズ混在・不均一・一部で矛盾している場合でも堅牢性を高めることを目的に、選好に基づく強化学習向けのMixture of Experts（MoE）アプローチを提案しています。
すべての比較フィードバックに対して単一の報酬モデルを当てはめるのではなく、複数の専門的な「報酬エキスパート」を学習し、軌道（トラジェクトリ）レベルのソフトルーティングでそれらを適応的に組み合わせて、潜在する嗜好パターンの多様性を捉えます。
エキスパートの崩壊（collapse）を防ぎ、学習を安定化するために、ロードバランシングの正則化が用いられます。
D4RLの移動（ロコモーション）ベンチマークとMetaWorldの操作タスクで評価した結果、PrefMoEは嗜好予測の堅牢性を改善し、強力な単一モデルのベースラインよりも下流の方策学習をより信頼できる形で導くことが示されています。

関連記事

Seedance 2.0とは？TikTok開発元から提供される動画生成AIモデルを徹底解説【2026最新】

Seedance 2.0とは？TikTok開発元から提供される動画生成AIモデルを徹底解説【2026最新】

note

提供者（プロバイダ）情報のズレで請求が止まる：エンロールメント修復エージェントの提案

提供者（プロバイダ）情報のズレで請求が止まる：エンロールメント修復エージェントの提案

Dev.to

輸出書類の奥に埋もれた還付とは？税関ドローバック請求の「書類組み立て」は別の研究用ボットよりエージェントに向く理由

輸出書類の奥に埋もれた還付とは？税関ドローバック請求の「書類組み立て」は別の研究用ボットよりエージェントに向く理由

Dev.to

Geminiファイル生成ガイド：AIでPDF・Word・Excelファイルを作る方法（2026）

Geminiファイル生成ガイド：AIでPDF・Word・Excelファイルを作る方法（2026）

Dev.to

AIエージェントが500回超の実運用を実行し、自身のリカバリーエンジンを構築した方法

AIエージェントが500回超の実運用を実行し、自身のリカバリーエンジンを構築した方法

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告

PrefMoE：Mixture of Experts による堅牢な嗜好モデリングと報酬学習 | AI Navigate