Karpathyが研究者を自動化した:autoresearchがAI開発の未来にもたらすもの
著者: AlexChen
Andrej Karpathyは2026年3月に autoresearch というリポを公開し、READMEは次のように始まる:
いつの日か、フロンティアAI研究は、食事中や睡眠中、他の楽しみの間、そして時折、音波接続を用いた『グループ会議』の儀式で動く肉体計算機によって行われていた。あの時代はとっくに過ぎ去った。
それは冗談ではない。何かが根本的に転換したという静かな告知だ。彼が実際に作ったもの、なぜ重要か、そしてAI開発スタックの誰にとっても何を意味するのかを分解してみよう。
autoresearchが実際に行うこと
設定は意図的に最小限に抑えられている。3つのファイルがすべてを担当する:
-
prepare.py— 定数、データ準備、トークナイザのトレーニング。固定。エージェントはこれには触れない。 -
train.py— 完全なGPTモデル、オプティマイザ(Muon + AdamW)、およびトレーニングループ。 これはエージェントが編集する唯一のファイルです。 -
program.md— エージェントのためのMarkdown指示。これは人間が編集する唯一のファイルです。
ループは徹底的にシンプルです:
- エージェントは
program.mdを読んで研究組織の目標を理解する - エージェントは
train.pyを修正する — アーキテクチャ、ハイパーパラメータ、オプティマイザ、バッチサイズ、その他何でも - トレーニングは正確に 5分(壁時計)実行される
- 指標:
val_bpb(検証ビット/バイト) — 値が低いほど良い - 改善されれば保持。そうでなければ破棄
- 一晩中繰り返す
約12件の実験/時で、およそ睡眠中に約100件の実験を得られます。目覚めると、エージェントが試したこと、機能したこと、機能しなかったことのログが残っています。
固定された5分予算は賢い設計上の選択です。それにより、エージェントが何を変更したかに関係なく、すべての実験を比較可能にします — モデルサイズ、シーケンス長、アテンションパターン、オプティマイザ設定。さらにautoresearchはあなたのハードウェア向けに特化して最適化されることを意味します。5分間でのRTX 3090での最適モデルと5分間でのH100での最適モデルは異なるのです。
反転: あなたがプログラムをプログラムする
ここに、ほとんどの報道が見逃すであろう洞察があります:
Karpathyは実験を自動化しているのではない。実験者を自動化しているのだ。
従来のML研究ワークフロー: 人間が論文を読み → 仮説を立て → トレーニングコードを修正 → 実験を実行 → 結果を分析 → メンタルモデルを更新 → 繰り返す。
autoresearchワークフロー: 人間が program.md(研究組織の指示)を書き、AIエージェントが内部ループを無限に実行する。
人間の役割は変わる。

