Karpathyが研究者を自動化した：autoresearchがAI開発の未来にもたらすもの

Dev.to / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

2026年3月にKarpathyはautoresearchリポジトリを公開し、固定の5分間トレーニングウィンドウとシンプルな指示駆動ワークフローでML実験を自動化します。
autoresearchでは、人間が<code>program.md</code>を作成して研究目標を設定し、AIエージェントが<code>train.py</code>を編集してアーキテクチャ、ハイパーパラメータ、その他のトレーニング詳細を調整することで、1時間あたり約12の実験、夜間には約100の実験を可能にします。
評価は<code>val_bpb</code>指標（低い方が良い）に焦点を当て、成功した実行は保持され、失敗は破棄されることで自動的な実験ループを生み出します。
設計は実験をハードウェア対応型にします。RTX 3090とH100のようなデバイス間で最適設定が異なるため、 frontier AI研究を実験者の自動化へとシフトします。
これはAI開発におけるパラダイムシフトを表しており、速度、再現性、研究者・エンジニア・PMの役割に影響を及ぼす可能性があります。

Karpathyが研究者を自動化した：autoresearchがAI開発の未来にもたらすもの

著者: AlexChen

Andrej Karpathyは2026年3月に autoresearch というリポを公開し、READMEは次のように始まる:

いつの日か、フロンティアAI研究は、食事中や睡眠中、他の楽しみの間、そして時折、音波接続を用いた『グループ会議』の儀式で動く肉体計算機によって行われていた。あの時代はとっくに過ぎ去った。

それは冗談ではない。何かが根本的に転換したという静かな告知だ。彼が実際に作ったもの、なぜ重要か、そしてAI開発スタックの誰にとっても何を意味するのかを分解してみよう。

autoresearchが実際に行うこと

設定は意図的に最小限に抑えられている。3つのファイルがすべてを担当する:

prepare.py — 定数、データ準備、トークナイザのトレーニング。固定。エージェントはこれには触れない。
train.py — 完全なGPTモデル、オプティマイザ（Muon + AdamW）、およびトレーニングループ。 これはエージェントが編集する唯一のファイルです。
program.md — エージェントのためのMarkdown指示。これは人間が編集する唯一のファイルです。

ループは徹底的にシンプルです:

エージェントは program.md を読んで研究組織の目標を理解する
エージェントは train.py を修正する — アーキテクチャ、ハイパーパラメータ、オプティマイザ、バッチサイズ、その他何でも
トレーニングは正確に 5分（壁時計）実行される
指標: val_bpb（検証ビット/バイト） — 値が低いほど良い
改善されれば保持。そうでなければ破棄
一晩中繰り返す

約12件の実験/時で、およそ睡眠中に約100件の実験を得られます。目覚めると、エージェントが試したこと、機能したこと、機能しなかったことのログが残っています。

固定された5分予算は賢い設計上の選択です。それにより、エージェントが何を変更したかに関係なく、すべての実験を比較可能にします — モデルサイズ、シーケンス長、アテンションパターン、オプティマイザ設定。さらにautoresearchはあなたのハードウェア向けに特化して最適化されることを意味します。5分間でのRTX 3090での最適モデルと5分間でのH100での最適モデルは異なるのです。

反転: あなたがプログラムをプログラムする

ここに、ほとんどの報道が見逃すであろう洞察があります:

Karpathyは実験を自動化しているのではない。実験者を自動化しているのだ。

従来のML研究ワークフロー: 人間が論文を読み → 仮説を立て → トレーニングコードを修正 → 実験を実行 → 結果を分析 → メンタルモデルを更新 → 繰り返す。

autoresearchワークフロー: 人間が program.md（研究組織の指示）を書き、AIエージェントが内部ループを無限に実行する。

人間の役割は変わる。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/14Dailyインサイトを見る →

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Reddit r/LocalLLaMA

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

Karpathyが研究者を自動化した：autoresearchがAI開発の未来にもたらすもの

要点

Karpathyが研究者を自動化した：autoresearchがAI開発の未来にもたらすもの

autoresearchが実際に行うこと

反転: あなたがプログラムをプログラムする

💡 この記事が使われたインサイト

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

提言：CAFという“型”で成功の再現性を高める

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer