概要: ロバスト強化学習に対する標準的なアプローチは、フィードバック源が全体的に信頼できるか、全体的に敵対的であるかのいずれかであると仮定します。 本論文ではこの仮定に挑戦し、より微妙な失敗モードを特定します。このモードを Contextual Sycophancy(文脈的迎合)と呼び、評価者は穏健な文脈では真実を語る一方で、重大な場面では戦略的に偏っています。 この設定では標準的なロバスト手法は機能せず、文脈的目的デカップリングに悩まされることを証明します。 これに対処するため、各評価者に対して高次元の信頼境界を学習する CESA-LinUCB を提案します。 CESA-LinUCB は文脈的敵対者に対してサブ線形の後悔量 itilde{O}(7{sqrt}{T}) を達成することを証明し、どの評価者も全体的に信頼できない場合でも真の値を回復します。
文脈バンディットにおける信頼のタイミングを学ぶ
arXiv cs.AI / 2026/3/17
📰 ニュースModels & Research
要点
- 本論文は、フィードバック源が全体的に信頼できるか、あるいは全体的に敵対的であるかという前提に挑戦し、Contextual Sycophancy(文脈的諂媚)を導入して、評価者は無害な文脈では真実を述べる一方、批判的な文脈では偏っていることを示す。
- 標準的なロバスト強化学習手法は、この設定において文脈的目的デカップリングの影響により失敗することを示している。
- CESA-LinUCBを提案し、各評価者の高次元の信頼境界を学習して、フィードバックを適応的に重み付けする。
- 文脈的敵対者に対してサブ線形の後悔(Õ(√T))を証明し、どの評価者も全体的に信頼できない場合でも真値の回復が可能であることを示す。



