選好フィードバック付きベイズ最適化におけるトンプソンサンプリングの有限時間解析

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、スカラー値ではなく「選好のペア比較」としてフィードバックが得られる場合に対応する、ベイズ最適化のためのトンプソンサンプリング手法を提案します。
  • ペア比較は、潜在効用差に対する単調リンクを用いてモデル化し、基底カーネルから導出されるデュエル(dueling)カーネルを活用します。
  • 著者らは有限時間の性能保証を示し、提案手法がスカラー・フィードバックのベイズ最適化における標準的なトンプソンサンプリングと同等の性能を達成し得ることを明らかにします。
  • 解析では、チェレンジャー選択におけるアンカー不変性などの性質を利用し、double-TS のペアリング変種も提案し、合成データと実データの両方で有効性を実証しています。

Abstract

スカラーのスコアではなく一対比較という形の嗜好フィードバックは、人間・研究室・エキスパート・イン・ザ・ループの設計だけでなく、科学的発見といった用途で、ますます利用が増えています。本研究では、潜在効用差に対して単調なリンクを用いて比較をモデル化し、基底カーネルから誘導されるデュエリング(dueling)カーネルを活用する、嗜好フィードバック付きベイズ最適化のための Thompson Sampling(TS)アプローチを提案します。提案手法の性能が、スカラー・フィードバックによる従来のベイズ最適化に対する標準的なTSと一致することを、有限時間での解析により示します。この解析では、対戦相手(challenger)選択におけるTSのアンカー不変性を活用し、ダブルTSのペアリング変種を導入します。また、合成例と実世界の例の両方で本手法の性能を実証します。