RLHFアノテーションの3つのモデル：拡張・エビデンス・権威

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Reinforcement Learning with Human Feedback（RLHF）において、人間のアノテータの判断が担う役割を、これまで明示されにくかった規範的側面まで含めて整理・分析する。
アノテータがシステムの出力へ影響する仕方を「拡張（設計者の判断を補う）」「エビデンス（道徳的・社会的などの事実に関する独立した根拠を示す）」「権威（より広い集団を代表する形で独立した裁量を持つ）」の3モデルで提案する。
著者は、RLHFパイプラインの設計（アノテーションの依頼方法、検証、集約）を、各アノテーション次元にどのモデルが適しているかに応じて変えるべきだと主張する。
重要なRLHF関連研究を調査し、多くの手法が暗黙にこれらのモデルを混ぜ合わせており、その混同が失敗要因になり得ることを示す。
中核となる提言は、RLHFのアノテーションを複数の独立した次元に分解し、単一の統一パイプラインではなく次元ごとに最適化されたパイプラインを設計することだ。

要旨: 嗜好（パラメータ）に基づくアラインメント手法、とりわけ人間のフィードバックによる強化学習（RLHF）は、人間の注釈者（アノテータ）の判断を用いて、大規模言語モデルの挙動を形作ります。しかし、これらの判断の規範的（ノーマティブ）な役割が、明示されることはめったにありません。私は、その役割に関する3つの概念モデルを区別します。1つ目は拡張（extension）です。注釈者は、どの出力があるべきかについてのシステム設計者自身の判断を拡張するのです。2つ目は証拠（evidence）です。注釈者は、道徳的であれ社会的であれ、あるいはそれ以外であれ、いくつかの事実に関して独立した証拠を提供します。3つ目は権威（authority）です。注釈者は、（より広い母集団の代表として）システムの出力を決定するための何らかの独立した権威を持つ、というものです。私は、これらのモデルが、RLHFパイプラインが注釈をどのように要請し、検証し、集約すべきかに対して含意を持つことを論じます。私は、RLHFおよび関連手法に関する文献の先駆的な論文を概観し、それらが暗黙にこれらのモデルに依拠している様子を示し、意図せずあるいは意図的にそれらを混同することから生じる失敗モードを説明し、そしてそれらのいずれを選ぶべきかの規範的基準を提示します。私の中心的な推奨は、RLHFパイプラインの設計者は注釈を分離可能な次元（ディメンション）へと分解し、単一の統一パイプラインを求めるのではなく、その次元ごとに最も適切なモデルに合わせて各パイプラインを調整すべきだ、というものです。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

Dev.to

RLHFアノテーションの3つのモデル：拡張・エビデンス・権威

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ