| 自動実験の実施中に、LLMコーディングエージェントが研究文献へのアクセスから恩恵を受けるかどうかを測る、制御された実験を行いました。 セットアップ: Karpathyのautoresearchフレームワークを用いた同一の2回の実行。TinyStoriesで~7MパラメータのGPT-2を最適化するClaude Codeエージェント。M4 Proで各100実験、同じシード設定。唯一の変数——1つのエージェントには、2M+件のCS論文を全文検索し、引用付きで手法を合成して返すMCPサーバーへのアクセスがありました。 結果:
ギャップは3.2%で、2時間経過時点でもなお拡大していました。 論文を追加したエージェントが見つけた手法:
うまくいかなかったこと:
重要な観察: 両方のエージェントはバッチサイズを半分にすることを試みました。文献へのアクセスなしでは、エージェントは学習率を調整しなかったため、実行は発散しました。アクセスありでは、sqrtスケーリング則を取得し、最初の試行で正しく適用してから、さらに16Kまで再度半減させることに成功しました。 解釈: 論文なしのエージェントは、重みとしてすでにエンコードされている技術に制限されていました。つまり、基本的に「標準的なMLの実行プラン」です。論文を追加したエージェントは、学習打ち切り後に公開された技術(AdaGC, 2025年2月)にアクセスでき、学習中に見た可能性はあるものの、プロンプトなしには引き出せなかった技術(sqrtスケーリング則、2022年)を提示しました。 この比較を難しくするため、意図的にTinyStoriesで検証しました。MLにおける、恐らく最も十分に探索されている小規模な設定だからです。効果は、あまり探索されていない問題ほど大きくなる可能性があります。 制限: 各条件につき実行は1回です。モデルは小さく(7Mパラメータ)、改善の一部は、論文内容そのものよりも、各技術についてより長く推論に時間を費やしたことによる可能性があります。より制御されたアブレーションが必要です。 この実験のために、論文検索用のMCPサーバー(Paper Lantern)を構築しました。無料で試せます:https://code.paperlantern.ai 方法論、全15本の論文引用、付録を含む完全な書き起こし:https://www.paperlantern.ai/blog/auto-research-case-study より大規模な規模や、別の領域での再現も見てみたいです。 [リンク] [コメント] |
[R] 制御実験:自動ハイパーパラメータ探索中にLLMエージェントへCS論文へのアクセスを与えると、結果が3.2%改善する
Reddit r/MachineLearning / 2026/3/28
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 制御実験として、Claude CodeエージェントがTinyStories上の約7M規模のGPT-2を最適化する、同一のKarpathy autoresearch実行を2回比較した。違いは、2M+件のCS論文に対する論文検索MCPサーバへのアクセスの有無だけである。
- 論文を加えたエージェントは、最高の検証改善率がより高く(4.05% vs 3.67%)、全体の性能差は約3.2%だったが、2時間時点のチェックポイントでもその差は拡大し続けていた。
- 論文アクセスありのエージェントは、論文由来の手法を大幅に多く試した(論文由来:25、標準手法のみ:それ以外)ほか、研究から取得した「sqrtバッチスケーリング」ルールを正しく適用した。
- 重要なメカニズムは、バッチサイズ変更後に学習率を調整することだった。論文を使えるエージェントは正しいスケーリング指針を取得して発散を回避できたのに対し、論文なしのエージェントは、学習率を変更せずにバッチサイズを半減しようとした際に発散した。
- 論文の手法すべてが有効だったわけではない。提案されたいくつかの方法はモデルのアーキテクチャと互換性がなく、元に戻された。これは、価値が論文を無差別に適用することではなく、選択的な取得と正しい適応にあることを示している。




