分布ロバストな生成レコメンデーションのための因果的直接嗜好最適化
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、生成レコメンデーションに対する直接嗜好最適化(DPO)が、環境の交絡因子による見せかけの相関を増幅し、その結果として分布外(OOD)汎化性能が低下し得ることを見出す。
- それに対して本研究はCausalDPOを提案する。CausalDPOは、DPOを因果不変性学習で拡張したものであり、バックドア調整、潜在環境分布のソフトクラスタリング、不変性制約を含む。
- 著者らは理論的な議論により、CausalDPOが複数の環境にまたがってユーザの安定した嗜好構造をより適切に捉えることを示す。
- 4つの分布シフトのシナリオにわたる実験では、4つの評価指標の平均で17.17%の改善が観測され、本手法の頑健なレコメンデーションへの有効性が裏付けられる。
広告




