文脈バンディットにおける信頼のタイミングを学ぶ

arXiv cs.AI / 2026/3/17

📰 ニュースModels & Research

共有:

要点

本論文は、フィードバック源が全体的に信頼できるか、あるいは全体的に敵対的であるかという前提に挑戦し、Contextual Sycophancy（文脈的諂媚）を導入して、評価者は無害な文脈では真実を述べる一方、批判的な文脈では偏っていることを示す。
標準的なロバスト強化学習手法は、この設定において文脈的目的デカップリングの影響により失敗することを示している。
CESA-LinUCBを提案し、各評価者の高次元の信頼境界を学習して、フィードバックを適応的に重み付けする。
文脈的敵対者に対してサブ線形の後悔（Õ(√T)）を証明し、どの評価者も全体的に信頼できない場合でも真値の回復が可能であることを示す。

概要: ロバスト強化学習に対する標準的なアプローチは、フィードバック源が全体的に信頼できるか、全体的に敵対的であるかのいずれかであると仮定します。本論文ではこの仮定に挑戦し、より微妙な失敗モードを特定します。このモードを Contextual Sycophancy（文脈的迎合）と呼び、評価者は穏健な文脈では真実を語る一方で、重大な場面では戦略的に偏っています。この設定では標準的なロバスト手法は機能せず、文脈的目的デカップリングに悩まされることを証明します。これに対処するため、各評価者に対して高次元の信頼境界を学習する CESA-LinUCB を提案します。 CESA-LinUCB は文脈的敵対者に対してサブ線形の後悔量 itilde{O}(7{sqrt}{T}) を達成することを証明し、どの評価者も全体的に信頼できない場合でも真の値を回復します。

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

文脈バンディットにおける信頼のタイミングを学ぶ

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？