概要: カスタムポリシーに対するガードレールを展開することは依然として困難です。というのも、一般的な安全性モデルではタスク固有の要件を捉えきれず、一方でLLMへのプロンプトでは境界ケースにおける性能が一貫しないことや推論コストが高いことが問題となります。カスタム分類器を学習することで正確性と効率の両立は可能ですが、取得が高コストなラベル付きデータを大量に必要とします。本研究では、タスクの説明と少量のラベルなし例のみを用いて、忠実で多様な合成トレーニングデータを生成するための枠組みBARRED(REflectionとDebateによる境界アラインメント洗練)を提案します。提案手法では、ドメイン空間を次元へ分解することで包括的なカバーを保証し、多アジェントによる議論を用いてラベルの正しさを検証することで、高忠実度なトレーニングコーパスを得ます。多様なカスタムポリシーにまたがる実験により、提案した合成データで微調整した小型言語モデルが、最先端の専用プロプライエタリなLLM(推論モデルを含む)およびガードレール専用モデルに対して、一貫して優れた性能を示すことを確認しました。アブレーション研究により、効果的な微調整に必要な多様性とラベルの忠実性を確実にするためには、次元分解と議論ベースの検証の両方が重要であることが示されています。BARREDの枠組みは、大規模な人手による注釈への依存をなくし、正確なカスタム・ガードレールのためのスケーラブルな解決策を提供します。
BARRED:非対称なディベートによるカスタム・ポリシー・ガードレールの合成トレーニング
arXiv cs.CL / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- BARREDは、大規模なラベル付きデータに依存せずにカスタム・ポリシーのガードレールを学習するための手法を提案している。
- このフレームワークは、タスク記述と少量の未ラベル例のみから高品質な合成トレーニングデータを生成する。
- BARREDはドメインを複数の次元に分解することで、合成データが境界ケースを幅広くカバーできるようにしている。
- ラベルの正しさを確かめるためにマルチエージェントの議論(ディベート)を用い、ラベルの忠実性と多様性の両立を目指している。
- 実験では、BARREDの合成データで微調整した小型言語モデルが、複数の最先端のプロプライエタリLLMや専用ガードレールモデルを上回り、アブレーション結果からも次元分解とディベート検証の重要性が示されている。



