分布ロバストな生成レコメンデーションのための因果的直接嗜好最適化

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、生成レコメンデーションに対する直接嗜好最適化（DPO）が、環境の交絡因子による見せかけの相関を増幅し、その結果として分布外（OOD）汎化性能が低下し得ることを見出す。
それに対して本研究はCausalDPOを提案する。CausalDPOは、DPOを因果不変性学習で拡張したものであり、バックドア調整、潜在環境分布のソフトクラスタリング、不変性制約を含む。
著者らは理論的な議論により、CausalDPOが複数の環境にまたがってユーザの安定した嗜好構造をより適切に捉えることを示す。
4つの分布シフトのシナリオにわたる実験では、4つの評価指標の平均で17.17%の改善が観測され、本手法の頑健なレコメンデーションへの有効性が裏付けられる。

Abstract

直接選好最適化（DPO）は、選好整合ロスを最小化することで、ユーザーの過去の行動分布に整合した提案を生成するよう大規模言語モデル（LLM）を導きます。しかし、我々の体系的な経験的研究および理論的分析により、DPOは整合プロセス中に環境の交絡因子によって生じる見かけ上の相関（spurious correlations）を増幅する傾向があることが明らかになっており、これにより、分布外（OOD）シナリオにおけるLLMベースの生成的レコメンド手法の汎化能力が大幅に損なわれます。この問題を軽減するために、因果不変学習メカニズムを組み込んだDPOの拡張であるCausalDPOを提案します。本手法は、選好整合フェーズにおいてバドア調整（backdoor adjustment）戦略を導入し、環境の交絡因子からの干渉を排除し、ソフトクラスタリング手法によって潜在する環境分布を明示的にモデル化し、不変性制約によって多様な環境間での頑健な一貫性を強化します。理論解析により、CausalDPOは複数の環境にわたってユーザーの安定した選好構造を効果的に捉え、それによってLLMベースのレコメンドモデルのOOD汎化性能を改善できることが示されます。4つの代表的な分布シフト設定の下で大規模な実験を実施し、CausalDPOの有効性を検証した結果、4つの評価指標における平均で17.17%の性能向上を達成しました。