Abstract
解が複雑な生成的事前L(s)(例えば、パラメータ化されたモデル)の下で高い確率を維持しつつ、コスト d(s) を最小化しなければならないゼロ次最適化を研究します。これは、目標分布に比例する分布からサンプリングする問題に帰着します:L(s) e^{-T \cdot d(s)}。表現力のある近似学習者に対して古典的なモデルベース最適化(MBO)には有限サンプル保証が欠けているため、我々は「粗い学習可能性(coarse learnability)」を導入します。これは柔軟な統計的仮定であり、学習されたモデルが目標の確率質量を多項式因子以内で覆えていることだけを要求するものです。この仮定を活用し、
「
サンプル補正(sample correction)ステップ
」を備えた反復的MBOアルゴリズム \\alift を設計し、多項式個のサンプルのみで目標を近似できることを証明します。我々は、この枠組みを、R^n において二次の包絡(quadratic envelope)で有界な非凸目的関数の全局的最適化に適用します。その際、この仮定が「楽観的(optimistic)」な事後分布の族に対して自然に満たされることを示します。全局的な -最適性
\varepsilon
に到達するには、サンプル複雑度が O(\log 1/\varepsilon) となることが示されます。これは楽観的な空間分割(space-partitioning)手法に特徴的なレートです。さらに、粗い学習可能性を生成的事前に対する理論的な仮定として正当化し、単純な設定では、パラメータ的最大尤度推定と、過剰平滑化(over-smoothed)されたカーネル密度推定がそれを自然に満たすことを証明します。最後に、この枠組みの動機の1つは推論時アラインメントです。我々の主な貢献はMBOの理論的基礎に関するものですが、単純な設定において、原始的なLLMであっても、ゼロ次のフィードバックで微調整することで、低コスト領域へ分布をシフトできることを示す定性的な証拠を提示します。



