要旨: 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を整合させる上で中核となっていますが、同時に重大な脆弱性も導入します。すなわち、不完全なリワードモデル(RM)は、安全でない振る舞いを罰することに失敗すると、単一障害点(シングルポイントオブフォールト)になり得るのです。既存のレッドチーミング手法は主に政策(ポリシー)レベルの弱点を対象としていますが、私たちが「体系的な弱点(systemic weaknesses)」と呼ぶ、基盤となるLLMとRMの双方が連動して失敗するケースを見落としています。
本論文では、こうした二重の脆弱性を体系的に発見し、軽減する枠組みであるARESを提示します。ARESは「Safety Mentor(安全メンター)」を用い、構造化された構成要素タイプ(トピック、ペルソナ、戦術、目標)を組み合わせることで、意味的に首尾一貫した敵対的プロンプトを動的に構成し、それに対応する悪意のある応答と安全な応答を生成します。この二重ターゲティングにより、基盤LLMとRMの弱点を同時にあぶり出します。得られた脆弱性を活用し、ARESは二段階の修復プロセスを実行します。まずRMを微調整して有害なコンテンツをより適切に検出できるようにし、次に改良されたRMを用いて基盤モデルを最適化します。複数の敵対的安全性ベンチマークにわたる実験により、ARESはモデル能力を維持しつつ、安全性の頑健性を大幅に向上させることが示され、包括的なRLHFの安全整合のための新たなパラダイムを確立します。
ARES:ポリシー報酬システムの適応的レッドチーミングとエンドツーエンド修復
arXiv cs.AI / 2026/4/22
📰 ニュースModels & Research
要点
- RLHFによるLLMアライメントでは、不完全な報酬モデル(RM)が危険行動を十分に罰できないと致命的な脆弱性になり得る。
- 本研究は、コアLLMとRMの両方が連動して失敗する「システム的弱点」を指摘し、従来の多くのレッドチーミングが主にポリシーレベルの欠陥に焦点を当てている点を問題視している。
- ARESは、トピック・ペルソナ・戦術・目標といった構成要素を組み合わせて意味的に一貫した敵対的プロンプトを動的に生成する「Safety Mentor」を用い、悪意ある応答と安全な応答の双方を生成する。
- 発見されたデュアル脆弱性をもとに、ARESは二段階の修復を実施する:まずRMを微調整して有害コンテンツ検出を強化し、その改良RMを用いてコアモデルを最適化する。
- 複数の敵対的安全性ベンチマークでの実験により、ARESはモデル能力を保ちつつ安全性の頑健性を大幅に高めることが示され、より包括的なRLHFアライメントの新しい考え方を提示している。



