要約: 最近の実証的な結果は、large language models (LLMs) を負のフィードバックのみで学習させると、標準的な人間のフィードバックからの強化学習(RLHF)と同等かそれを上回ることができることを示しています。ネガティブサンプル強化は数学的推論において PPO と同等の性能を達成します;分布的非好み最適化は好まれないサンプルのみを用いて効果的に学習します;そして Constitutional AI は無害性ベンチマークで純粋な RLHF を上回ります。 しかし、なぜ負の信号がこれほどまでに効果的であるのかを説明する統一的な理論はまだ存在しません。本論文はこのような説明を提案します。正の嗜好と負の制約は構造的に非対称です。正の嗜好(「どちらが良いか」)は、継続的に結びついた、文脈依存の人間の価値観をエンコードしますが、それらを網羅的に指定することはできません。これによりモデルは、ユーザーとの一致といった表面的な相関(迎合)を学習します。負の制約(「何が間違っているか」)は、離散的で finite、独立に検証可能な禁止事項をエンコードし、それらは安定した境界へ収束することがあります。この非対称性は、ポパーの反証論理と負の知識の認識論に根ざしており、嗜好ベースの RLHF の迎合の失敗と、負のシグナル手法の驚くべき有効性の両方を説明します。私たちは、アラインメント研究が「人間が好むことを学ぶ」から「人間が拒むことを学ぶ」へ重心を移すべきだと主張し、この枠組みに対する検証可能な予測を提示します。
AIアライメントにおける Via Negativa: 否定的制約が正の嗜好より構造的に優れている理由
arXiv cs.AI / 2026/3/18
💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis
要点
- 本論は、AIアライメントにおいて否定的制約が正の嗜好より構造的に優れていると主張する。理由は、それらが離散的で検証可能な禁止を組み込み、安定した境界へ収束するのに対し、連続的に値付けされた嗜好は文脈依存の人間の価値観を反映するからである。
- また、ネガティブサンプル強化、分布的非好み最適化、Constitutional AI など、ネガティブのみのフィードバック手法が、数学的推論や無害性のベンチマークといったタスクで RLHF と同等、あるいはそれを上回ることができるという経験的結果を挙げている。
- 著者らは、否定シグナルの有効性を、反証論理(ポパー)に根ざす非対称性と、人間が好むものではなく拒絶するものを学ぶという考え方に起因するものとして説明しており、これは嗜好ベースのアプローチにおける迎合的挙動を説明するのにも役立つ。
- 本論は、アライメント研究を拒絶基準の学習へと転換することを提唱し、検証可能な予測を提示するとともに、AIシステムの設計と評価におけるより広い含意を概説している。

