大規模における効率的探索

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、新しい選択データが到着するたびに報酬モデルと言語モデルの両方を逐次更新することで、ヒューマンフィードバックに基づく強化学習（RLHF）のデータ効率を大幅に改善するオンライン学習アルゴリズムを提案する。
主な技術には、各強化信号に小さな肯定的な後押しを追加すること、報酬の不確実性をモデル化するエピステミックニューラルネットワーク、そしてデータ収集を導く情報指向探索が含まれる。
Gemma LLMsを用いた実験では、このアルゴリズムは200kラベルで訓練されたオフラインRLHFの性能と同等を、20k未満のラベルで達成し、データ効率を10倍以上改善することを示した。
著者らは、100万ラベルでの学習が10億ラベルで訓練されたオフラインRLHFと同等になる可能性を示唆しており、1000倍のスケーリング優位性を意味し、RLHFパイプラインにとって潜在的に画期的な成果をもたらす可能性がある。

要旨: 私たちは、人間のフィードバックからの強化学習（RLHF）のデータ効率を劇的に向上させるオンライン学習アルゴリズムを開発します。私たちのアルゴリズムは、選択データが受信されるにつれて報酬モデルと言語モデルを漸進的に更新します。報酬モデルは選択データに適合させられ、言語モデルは報酬モデルが提供する強化信号を用いた REINFORCE の変形によって更新されます。効率向上を可能にするいくつかの特徴: 各強化信号に小さな肯定的な後押しを加えること、報酬の不確実性をモデル化するエピステミック・ニューラルネットワーク、情報指向型探索。Gemma 大規模言語モデル（LLMs）を用いると、私たちのアルゴリズムは、200K ラベルで訓練されたオフライン RLHF の性能に匹敵しつつ、20K 未満のラベルしか使用しません。これによりデータ効率は10倍以上向上します。結果から外挿すると、1M ラベルで訓練した私たちのアルゴリズムは、1B ラベルで訓練されたオフライン RLHF に匹敵すると予想されます。これは1000倍の改善を意味します。私たちの知る限り、これほど大きな改善が可能であることを示す初めての結果です。

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

大規模における効率的探索

要点

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

AIにおけるMCPを解説（実例付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer