ARGUS:進化する強化学習と対審型(アドバーサリアル)審判による政策適応型広告ガバナンス

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、規制ポリシーが非定常に変化する環境で、教育分野の制限や美的な不安への懸念といった新たな義務が過去データのラベルの不一致や推論のあいまいさを生むことに対処する、政策適応型の広告ガバナンス手法ARGUSを提案しています。
  • ARGUSは「政策シーディング」「対審的ラベル修正(Prosecutor-Defender-Umpireアーキテクチャ)」「潜在的知識発見(3者による弁証的ディスカッション)」という3段階のパイプラインで、「グレー領域」の違反も含めて扱えるようにします。
  • 新しい政策データが少ない状況に対応するため、ARGUSはRAGで強化した政策知識と、強化学習の報酬として使うChain-of-Thoughtに基づくシグナルを活用し、時間とともに変わる規制に推論経路を同期させます。
  • 産業用データセットと公開データセットの実験により、ARGUSは従来の微調整ベースラインを上回り、「ゴールド」ラベルが最小限でも高い政策適応性能を達成したと示されています。
  • 総じてARGUSは、広告ガバナンスを一度固定ラベルで学習する静的分類器ではなく、進化し続ける多剤(マルチエージェント)かつ対審型の判断・推論問題として捉えています。

要旨: オンライン広告のガバナンスは、規制政策の非定常性により大きな課題に直面している。すなわち、登場する義務(例:教育に対する制限や審美的不安に関する規制)が、過去のデータセットにおいて重大なラベルの不整合や推論の曖昧さを生み出す。本論文では、多対のエージェントによる敵対的な審判(umpiring)を通じて強化を進化させられる、政策適応型ガバナンスシステムARGUSを提案する。ARGUSは、新しい政策データの疎性に対処するため、3段階の枠組みを用いる。(1) 初期認識のための政策シーディング(Policy Seeding); (2) ``Prosecutor-Defender-Umpire'' アーキテクチャを用いて、陳腐化したラベルと新しい義務の間の対立を解消する敵対的ラベル修正(Adversarial Label Rectification); (3) 三者による弁証的な議論を用いて、洗練された「グレー領域」の違反を掘り起こす潜在知識発見(Latent Knowledge Discovery)。RAG強化による政策知識と、強化学習における動的報酬としてのChain-of-Thought合成を活用することで、ARGUSは、進化する規制に合わせて推論経路を同期させる。産業データセットと公開データセットの双方に対する大規模な実験により、ARGUSが従来の微調整ベースラインを大幅に上回り、最小限のゴールドデータで、優れた政策適応型学習を実現することが示される。