生成的事前分布に対する粗い学習可能性によるサンプル効率の高い最適化

arXiv stat.ML / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、コスト関数を最小化しつつ複雑な生成的事前分布のもとで高確率を保つゼロ次最適化を扱い、事前分布にコストの指数ペナルティを掛けた分布からのサンプリングとして定式化します。
  • 古典的なモデルベース最適化(MBO)は表現力の高い学習器に対して有限サンプル保証が不足していると述べ、「coarse learnability(粗い学習可能性)」というより弱い統計的仮定を導入し、ターゲットの確率質量を多項式因子でカバーすることのみを要求します。
  • この仮定に基づき、Aliftと呼ばれる反復的なMBOアルゴリズムを提案し、サンプル補正ステップによって多項式個のサンプルのみでターゲットを近似できることを示します。
  • 二次的なエンベロープで抑えられる特定の非凸目的に対して大域的なε最適性を与え、εに関してほぼ対数に依存するサンプル計算量(irst irst を含む)を得て、仮定が「optimistic(楽観的)」な事後分布と結びつくことも説明します。
  • さらに理論的裏付けとして、粗い学習可能性が単純設定ではパラメトリックな最尤推定や過度に平滑化したカーネル密度推定などで自然に成り立つことを示し、推論時アラインメントへの動機づけとして、単純なLLMがゼロ次フィードバックの微調整により低コスト領域へ分布を動かせる可能性について定性的な証拠も提示します。

Abstract

解が複雑な生成的事前 L(s)(例えば、パラメータ化されたモデル)の下で高い確率を維持しつつ、コスト d(s) を最小化しなければならないゼロ次最適化を研究します。これは、目標分布に比例する分布からサンプリングする問題に帰着します:L(s) e^{-T \cdot d(s)}。表現力のある近似学習者に対して古典的なモデルベース最適化(MBO)には有限サンプル保証が欠けているため、我々は「粗い学習可能性(coarse learnability)」を導入します。これは柔軟な統計的仮定であり、学習されたモデルが目標の確率質量を多項式因子以内で覆えていることだけを要求するものです。この仮定を活用し、 「 サンプル補正(sample correction)ステップ

」を備えた反復的MBOアルゴリズム \\alift を設計し、多項式個のサンプルのみで目標を近似できることを証明します。我々は、この枠組みを、R^n において二次の包絡(quadratic envelope)で有界な非凸目的関数の全局的最適化に適用します。その際、この仮定が「楽観的(optimistic)」な事後分布の族に対して自然に満たされることを示します。全局的な
\varepsilon
-最適性

に到達するには、サンプル複雑度が O(\log 1/\varepsilon) となることが示されます。これは楽観的な空間分割(space-partitioning)手法に特徴的なレートです。さらに、粗い学習可能性を生成的事前に対する理論的な仮定として正当化し、単純な設定では、パラメータ的最大尤度推定と、過剰平滑化(over-smoothed)されたカーネル密度推定がそれを自然に満たすことを証明します。最後に、この枠組みの動機の1つは推論時アラインメントです。我々の主な貢献はMBOの理論的基礎に関するものですが、単純な設定において、原始的なLLMであっても、ゼロ次のフィードバックで微調整することで、低コスト領域へ分布をシフトできることを示す定性的な証拠を提示します。