AIアライメントにおける Via Negativa: 否定的制約が正の嗜好より構造的に優れている理由

arXiv cs.AI / 2026/3/18

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

共有:

要点

本論は、AIアライメントにおいて否定的制約が正の嗜好より構造的に優れていると主張する。理由は、それらが離散的で検証可能な禁止を組み込み、安定した境界へ収束するのに対し、連続的に値付けされた嗜好は文脈依存の人間の価値観を反映するからである。
また、ネガティブサンプル強化、分布的非好み最適化、Constitutional AI など、ネガティブのみのフィードバック手法が、数学的推論や無害性のベンチマークといったタスクで RLHF と同等、あるいはそれを上回ることができるという経験的結果を挙げている。
著者らは、否定シグナルの有効性を、反証論理（ポパー）に根ざす非対称性と、人間が好むものではなく拒絶するものを学ぶという考え方に起因するものとして説明しており、これは嗜好ベースのアプローチにおける迎合的挙動を説明するのにも役立つ。
本論は、アライメント研究を拒絶基準の学習へと転換することを提唱し、検証可能な予測を提示するとともに、AIシステムの設計と評価におけるより広い含意を概説している。

要約: 最近の実証的な結果は、large language models (LLMs) を負のフィードバックのみで学習させると、標準的な人間のフィードバックからの強化学習（RLHF）と同等かそれを上回ることができることを示しています。ネガティブサンプル強化は数学的推論において PPO と同等の性能を達成します；分布的非好み最適化は好まれないサンプルのみを用いて効果的に学習します；そして Constitutional AI は無害性ベンチマークで純粋な RLHF を上回ります。しかし、なぜ負の信号がこれほどまでに効果的であるのかを説明する統一的な理論はまだ存在しません。本論文はこのような説明を提案します。正の嗜好と負の制約は構造的に非対称です。正の嗜好（「どちらが良いか」）は、継続的に結びついた、文脈依存の人間の価値観をエンコードしますが、それらを網羅的に指定することはできません。これによりモデルは、ユーザーとの一致といった表面的な相関（迎合）を学習します。負の制約（「何が間違っているか」）は、離散的で finite、独立に検証可能な禁止事項をエンコードし、それらは安定した境界へ収束することがあります。この非対称性は、ポパーの反証論理と負の知識の認識論に根ざしており、嗜好ベースの RLHF の迎合の失敗と、負のシグナル手法の驚くべき有効性の両方を説明します。私たちは、アラインメント研究が「人間が好むことを学ぶ」から「人間が拒むことを学ぶ」へ重心を移すべきだと主張し、この枠組みに対する検証可能な予測を提示します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

AIアライメントにおける Via Negativa: 否定的制約が正の嗜好より構造的に優れている理由

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer