Optuna と autoresearch を比較する実験を行いました。
Autoresearch は収束がより速く、コスト効率が高く、さらに汎化性能もより良いのです。
- 実験は NanoChat で行いました。Claude に Optuna の探索空間を定義させ、両手法の事前分布を揃えています。最適化手法はいずれも 3 回ずつ実行しました。平均すると、autoresearch はサンプル効率が圧倒的に高いです
- 5分トレーニング設定では、LLM のトークンコストが GPU と同程度になります。しかし、1ステップあたりのコストが 2 倍であるにもかかわらず、AutoResearch はあらゆるコスト予算において依然として上回ります:
- さらに、autoresearch が見つけた解は Optuna のものよりも良く汎化します。最良の解に対してより多くの学習時間を与えました。絶対的なスコア差は拡大し、統計的有意性も強まります:
- autoresearch の能力にとって重要な要因は、コード空間で直接探索することです。初期段階では、autoresearch は Optuna の 16 パラメータ探索空間内の調整ノブをチューニングします。しかし反復回数が増えると、コードの変更を探索し始めます
[link] [comments]




