AI Navigate

Karpathyが研究者を自動化した:autoresearchがAI開発の未来にもたらすもの

Dev.to / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 2026年3月にKarpathyはautoresearchリポジトリを公開し、固定の5分間トレーニングウィンドウとシンプルな指示駆動ワークフローでML実験を自動化します。
  • autoresearchでは、人間が<code>program.md</code>を作成して研究目標を設定し、AIエージェントが<code>train.py</code>を編集してアーキテクチャ、ハイパーパラメータ、その他のトレーニング詳細を調整することで、1時間あたり約12の実験、夜間には約100の実験を可能にします。
  • 評価は<code>val_bpb</code>指標(低い方が良い)に焦点を当て、成功した実行は保持され、失敗は破棄されることで自動的な実験ループを生み出します。
  • 設計は実験をハードウェア対応型にします。RTX 3090とH100のようなデバイス間で最適設定が異なるため、 frontier AI研究を実験者の自動化へとシフトします。
  • これはAI開発におけるパラダイムシフトを表しており、速度、再現性、研究者・エンジニア・PMの役割に影響を及ぼす可能性があります。

Karpathyが研究者を自動化した:autoresearchがAI開発の未来にもたらすもの

著者: AlexChen

Andrej Karpathyは2026年3月に autoresearch というリポを公開し、READMEは次のように始まる:

いつの日か、フロンティアAI研究は、食事中や睡眠中、他の楽しみの間、そして時折、音波接続を用いた『グループ会議』の儀式で動く肉体計算機によって行われていた。あの時代はとっくに過ぎ去った。

それは冗談ではない。何かが根本的に転換したという静かな告知だ。彼が実際に作ったもの、なぜ重要か、そしてAI開発スタックの誰にとっても何を意味するのかを分解してみよう。

autoresearchが実際に行うこと

設定は意図的に最小限に抑えられている。3つのファイルがすべてを担当する:

  • prepare.py — 定数、データ準備、トークナイザのトレーニング。固定。エージェントはこれには触れない。
  • train.py — 完全なGPTモデル、オプティマイザ(Muon + AdamW)、およびトレーニングループ。 これはエージェントが編集する唯一のファイルです。
  • program.md — エージェントのためのMarkdown指示。これは人間が編集する唯一のファイルです。

ループは徹底的にシンプルです:

  1. エージェントは program.md を読んで研究組織の目標を理解する
  2. エージェントは train.py を修正する — アーキテクチャ、ハイパーパラメータ、オプティマイザ、バッチサイズ、その他何でも
  3. トレーニングは正確に 5分(壁時計)実行される
  4. 指標: val_bpb(検証ビット/バイト) — 値が低いほど良い
  5. 改善されれば保持。そうでなければ破棄
  6. 一晩中繰り返す

約12件の実験/時で、およそ睡眠中に約100件の実験を得られます。目覚めると、エージェントが試したこと、機能したこと、機能しなかったことのログが残っています。

固定された5分予算は賢い設計上の選択です。それにより、エージェントが何を変更したかに関係なく、すべての実験を比較可能にします — モデルサイズ、シーケンス長、アテンションパターン、オプティマイザ設定。さらにautoresearchはあなたのハードウェア向けに特化して最適化されることを意味します。5分間でのRTX 3090での最適モデルと5分間でのH100での最適モデルは異なるのです。

反転: あなたがプログラムをプログラムする

ここに、ほとんどの報道が見逃すであろう洞察があります:

Karpathyは実験を自動化しているのではない。実験者を自動化しているのだ。

従来のML研究ワークフロー: 人間が論文を読み → 仮説を立て → トレーニングコードを修正 → 実験を実行 → 結果を分析 → メンタルモデルを更新 → 繰り返す。

autoresearchワークフロー: 人間が program.md(研究組織の指示)を書き、AIエージェントが内部ループを無限に実行する。

人間の役割は変わる。