TUR-DPO：トポロジーと不確実性を考慮したダイレクト・プリファレンス・オプティマイゼーション

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的なDPOが、好みの信号を単純な「勝ち／負け」ラベルとして扱うために脆く、ノイズの多い、あるいは脆い“思考の連鎖”から生じる嗜好に影響されやすいと指摘している。
TUR-DPOはDPOを拡張し、軽量な推論の“トポロジー”を用いて、意味的忠実性・有用性・トポロジー品質を統合し、校正された不確実性シグナルを作ることを提案する。
小さな学習可能な報酬をこれらの要素に分解し、不確実性で重み付けされたRLフリーのDPO目的関数に組み込むことで、固定または更新可能な参照ポリシーのみに依存し、オンラインロールアウトを不要にしている。
実験では、複数のオープンな7〜8Bモデルに対し、数学的推論・事実ベースQA・要約・helpful/harmless対話の各ベンチマークで、DPOよりもジャッジの勝率、忠実性、キャリブレーションが向上した。
さらに、マルチモーダルや長文コンテキストでも一貫した改善が見られ、推論中心タスクではPPOに匹敵、または上回る結果を示しつつ、運用は単純なままであるとしている。

要旨: 大規模言語モデル（LLM）を人間の嗜好に合わせることは、一般に、Proximal Policy Optimization（PPO）による強化学習（RLHF）や、より単純には、Direct Preference Optimization（DPO）によって行われます。DPOは安定していてRLを必要としませんが、嗜好を「勝者 vs. 敗者」という平坦な信号として扱い、思考の脆い連鎖（fragile chains of thought）から生じるノイズの多い、あるいは脆い嗜好に対して敏感です。そこで本研究では、TUR-DPOを提案します。これは、DPOのトポロジーおよび不確実性を考慮した変種であり、答えが「何を言うか」だけでなく、「どのように導出されたか」を報いる仕組みです。軽量な推論トポロジーを引き出し、意味的な忠実性、有用性、そしてトポロジーの品質を較正済みの不確実性信号に統合することで実現します。これらの信号に対して小さな学習可能な報酬を因子分解し、不確実性で重み付けされたDPO目的関数に組み込むことで、TUR-DPOはRLを要さず、固定または移動する参照ポリシーのみを用いて成立します。実験的には、数学的推論、事実に基づく質問応答、要約、有益／無害な対話にまたがるベンチマークおよびオープンな7〜8Bモデルにおいて、TUR-DPOはDPOに比べて判定者の勝率、忠実性、較正（calibration）を改善しつつ、学習の単純さを維持し、オンラインロールアウトも回避します。さらに、マルチモーダルおよび長文コンテキスト設定でも一貫した改善を観察し、推論中心のタスクにおいてTUR-DPOがPPOに匹敵、あるいは上回ることを示しながら、運用の単純さも維持します。