Caro:堅牢なコンテンツモデレーションのための類推推論最適化(Chain-of-Analogy Reasoning Optimization)

arXiv cs.AI / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 既存のLLMは曖昧なコンテンツモデレーションで文脈中の「意思決定ショートカット」に引きずられやすく、誤判定が起きるという課題を指摘しています。
  • CARO(Chain-of-Analogy Reasoning Optimization)は、モデレーションデータを使ったRAGによるアナロジー推論チェーンのブートストラップとSFTにより基礎能力を形成し、その後にカスタムDPOでアナロジカル推論行動を強化する2段階学習枠組みです。
  • 静的な参照に依存する従来の検索型手法と異なり、CAROは推論時に状況に合わせたアナロジー参照を動的生成することで有害なショートカットの影響を抑えるとしています。
  • 実験では、DeepSeek R1やQwQ、LLaMA Guard等の既存の推論・モデレーション特化モデル、各種微調整/RA手法を上回り、曖昧ベンチマークにおける平均F1が24.9%改善したと報告しています。

概要: 現在の大規模言語モデル(LLM)は、推論のために明示的に訓練されたものでも、文脈に埋め込まれた誤解を招く「意思決定の近道」により、曖昧なコンテンツモデレーションの事例に対してしばしば苦戦します。専門家のモデレーションに関する認知心理学の知見に着想を得て、caro(Chain-of-Analogy Reasoning Optimization:類推推論の鎖最適化)という新しい2段階の学習枠組みを提案し、LLMに頑健な類推的推論を誘導します。まず、caroは、モデレーションデータに対する検索拡張生成(RAG)を通じて類推推論の鎖をブートストラップし、さらに教師あり微調整(SFT)を行います。次に、類推推論の振る舞いを明示的に強化するための、カスタマイズされたダイレクト・プリファレンス・オプティマイゼーション(DPO)手法を提案します。静的な検索手法とは異なり、caroは推論時に状況に合わせた類推的参照を動的に生成することで、有害な意思決定の近道を効果的に緩和します。大規模な実験の結果、caroは最先端の推論モデル(DeepSeek R1, QwQ)や、専門的なモデレーションモデル(LLaMA Guard)、さらに高度な微調整および検索拡張手法に対して大幅に上回ることが示されました。困難な曖昧性のあるモデレーション・ベンチマークにおいて、平均F1スコアが24.9\%向上しました。