LLMは古典的なハイパーパラメータ最適化アルゴリズムに勝てるのか？自己探索（autoresearch）に関する研究

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、「自己探索（autoresearch）」というLLMエージェント手法を提案する。これは、制約のない探索空間において学習ソースコードを直接編集することでハイパーパラメータを最適化し、古典的なHPO手法に対するテストベッドとして用いられる。
固定された制約付きのハイパーパラメータ探索空間の下では、CMA-ESやTPEのような古典的アルゴリズムが、ハイパーパラメータ調整において小規模言語モデルに対して一貫してLLMベースのエージェントを上回る。
制約なしの設定では、LLMによるコード編集は性能差を大幅に縮める。加えて、この研究では、探索の多様性を最大化することよりも、メモリ不足（out-of-memory）失敗を回避することの方が重要であると結論づけている。
著者らは、小〜中規模のLLMは試行をまたいで最適化状態を維持するのが難しい一方で、古典的HPO手法はドメイン知識を欠くと主張し、それを動機としてハイブリッド解を提案する。
「Centaur」を提案する。これは、CMA-ESの内部状態共有（平均ベクトル、ステップサイズ、共分散）とLLMを組み合わせたもので、最良の結果はCentaur 0.8Bの派生で得られたと報告される。一方で、27Bへスケールしても、検証したオープンウェイトモデルにおいては固定空間手法に優位性は見られなかった。

要旨: 自己研究リポジトリ（autoresearch）は、LLMエージェントが学習コードを直接編集することで、制約のない探索空間において最適なハイパーパラメータ構成を探索できるようにする。計算予算と制約が固定された状況で、本研究では小規模言語モデルのハイパーパラメータ調整において、古典的なハイパーパラメータ最適化（HPO）アルゴリズムとLLMベース手法を比較するためのテストベッドとして
\emph{autoresearch} を用いる。固定されたハイパーパラメータ探索空間の範囲では、CMA-ES や TPE のような古典的HPO手法が、LLMベースのエージェントを一貫して上回る。しかし、制約のない探索空間において学習ソースコードを直接編集する LLM エージェントは、セルフホストされたオープンウェイト27Bモデルのみを用いているにもかかわらず、古典手法とのギャップを大幅に縮める。メモリ不足（out-of-memory）失敗を回避する手法は、より高い探索多様性を伴う手法よりも優れており、探索の広さよりも信頼性が重要であることが示唆される。小型および中型の LLM は、試行をまたいで最適化状態を追跡するのが難しい一方で、古典的手法にはドメイン知識が欠けている。このギャップを埋めるために、CMA-ES の平均ベクトル、ステップサイズ、共分散行列を含む内部状態を LLM と共有するハイブリッド手法 Centaur を提案する。Centaur は本研究の実験で最良の結果を達成し、その 0.8B バリアントが 27B バリアントを上回る。これは、強力な古典的オプティマイザと組み合わせれば、安価な LLM で十分であることを示している。0.8B モデルは制約のないコード編集には不十分だが、ハイブリッド最適化には十分であり、オープンウェイトモデルで検証した固定探索空間の手法においては 27B へスケールしても利点がない。コードは https://github.com/ferreirafabio/autoresearch-automl で公開している。