要旨: 嗜好(パラメータ)に基づくアラインメント手法、とりわけ人間のフィードバックによる強化学習(RLHF)は、人間の注釈者(アノテータ)の判断を用いて、大規模言語モデルの挙動を形作ります。しかし、これらの判断の規範的(ノーマティブ)な役割が、明示されることはめったにありません。私は、その役割に関する3つの概念モデルを区別します。1つ目は拡張(extension)です。注釈者は、どの出力があるべきかについてのシステム設計者自身の判断を拡張するのです。2つ目は証拠(evidence)です。注釈者は、道徳的であれ社会的であれ、あるいはそれ以外であれ、いくつかの事実に関して独立した証拠を提供します。3つ目は権威(authority)です。注釈者は、(より広い母集団の代表として)システムの出力を決定するための何らかの独立した権威を持つ、というものです。私は、これらのモデルが、RLHFパイプラインが注釈をどのように要請し、検証し、集約すべきかに対して含意を持つことを論じます。私は、RLHFおよび関連手法に関する文献の先駆的な論文を概観し、それらが暗黙にこれらのモデルに依拠している様子を示し、意図せずあるいは意図的にそれらを混同することから生じる失敗モードを説明し、そしてそれらのいずれを選ぶべきかの規範的基準を提示します。私の中心的な推奨は、RLHFパイプラインの設計者は注釈を分離可能な次元(ディメンション)へと分解し、単一の統一パイプラインを求めるのではなく、その次元ごとに最も適切なモデルに合わせて各パイプラインを調整すべきだ、というものです。
RLHFアノテーションの3つのモデル:拡張・エビデンス・権威
arXiv cs.CL / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Reinforcement Learning with Human Feedback(RLHF)において、人間のアノテータの判断が担う役割を、これまで明示されにくかった規範的側面まで含めて整理・分析する。
- アノテータがシステムの出力へ影響する仕方を「拡張(設計者の判断を補う)」「エビデンス(道徳的・社会的などの事実に関する独立した根拠を示す)」「権威(より広い集団を代表する形で独立した裁量を持つ)」の3モデルで提案する。
- 著者は、RLHFパイプラインの設計(アノテーションの依頼方法、検証、集約)を、各アノテーション次元にどのモデルが適しているかに応じて変えるべきだと主張する。
- 重要なRLHF関連研究を調査し、多くの手法が暗黙にこれらのモデルを混ぜ合わせており、その混同が失敗要因になり得ることを示す。
- 中核となる提言は、RLHFのアノテーションを複数の独立した次元に分解し、単一の統一パイプラインではなく次元ごとに最適化されたパイプラインを設計することだ。


