要約: LLMエージェントが自律的にML実験を設計する場合、それは本物のアーキテクチャ探索を行うのか、それとも設計空間の狭い領域内でハイパーパラメータ調整にデフォルトするのか? この問いに答えるべく、ダッシュカム衝突検出のための組合せ配置空間 108,000 個の離散セルを27日間にわたり横断する2つのLLMエージェント(Claude Opus と Gemini 2.5 Pro)によって実行された10,469件の実験を分析した。ANOVA分解を通じて、\textbf{アーキテクチャの選択が性能分散の94%を説明する} (F = 1324, \eta^2 = 0.94)、固定アーキテクチャ内のハイパーパラメータ変動は6%しか説明しないことが分かった。別の衝突データセットでのタスク横断検証はこの発見を裏付け、アーキテクチャ説明分散が75%に達し、\emph{異なる}有力バックボーンにより、真のアーキテクチャ発見を確認した。エージェントの主な貢献は、Zipformer 時間的エンコーダを用いた V-JEPA\,2 のビデオ特徴が0.9245 APを達成するという、人間が提案したことのない構成を発見したことであり、生産的なアーキテクチャ領域に探索を集中させたことでもある。具体的には N = 50 のとき、LLM指導の探索は AP = 0.985 に達し、初めからのランダム探索の 0.965 を上回る。バグ修正後の収束はべき乗則に従い (c = 0.11, R^2 = 0.93)、低い指数は広範な探索のコストを反映しており、非効率性を意味するものではない。LLMはランダムやベイズのベースラインより定性的に優れた領域を発見している。我々はエントロピーサイクルと Jensen--Shannon の特化性を用いてマルチエージェント探索ダイナミクスを特徴づけ、LLMガイド付き組合せML実験設計の最初の大規模実証フレームワークを提供する。
自動探索ではなくハイパーパラメータ調整: 10,000件の実験の収束分析
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMエージェントが自律的に真のアーキテクチャ探索を行っているのか、設計空間の狭い領域内でハイパーパラメータのみを調整しているのかを検討し、Claude Opus と Gemini 2.5 Pro による10,469件の実験を分析しています。これらはダッシュカム衝突検出のため、108,000個の離散セルをまたぎ、27日間に渡って行われました。
- ANOVA分解により、アーキテクチャの選択が性能分散の94%を説明することが示され(F = 1324、η^2 = 0.94)、一方で固定アーキテクチャ内のハイパーパラメータの変動は約6%しか説明しません。
- 別の衝突データセットでのタスク横断検証は、アーキテクチャ探索の結果を確認し(アーキテクチャが説明する分散が75%)、別の勝ちバックボーンを特定し、エージェントによる真のアーキテクチャ探索を支持します。
- エージェントは、Zipformer 時間的エンコーダを組み合わせた V-JEPA2 ビデオ特徴が AP = 0.9245 を達成することを発見しました。これは人間が提案したことのない構成です。そして N = 50 のとき、LLM 指導付き探索は AP = 0.985 に到達し、ゼロからのランダム探索では 0.965 でした。
- バグ修正後の収束はべき乗則に従います(c = 0.11、R^2 = 0.93)。小さな指数は、非効率性ではなく広範な探索のコストを示しており、本研究は、LLMを指導とする組合せML実験の大規模な実証フレームワークを提案しています。エントロピーサイクルと Jensen-Shannon に基づく特化性を用いて、マルチエージェント探索のダイナミクスを特徴づけます。