AI Navigate

[P] 再現性のない保持は破棄より悪いため、オートリサーチ用の信頼スコアリングを構築する

Reddit r/MachineLearning / 2026/3/18

📰 ニュースTools & Practical Usage

要点

  • この投稿は、H100上で大規模に autoresearch を実行する様子を、1夜あたり約100件の実験、保持率約15%として詳述しており、Karpathyの観察と一致しています。
  • キープ/ディスカードのループは機能するものの、いくつかの保持は再現検証で成り立たないことがあり、小さな改善を追求するとノイズが増幅され、場合によってはディスカードの方が望ましいと主張します。
  • ノイズフロアを推定し、次の実験を提案し、アイデアを相互に刺激し合うために Gitワークツリー間で競合する戦略を走らせる、autojudge、autosteer、autoevolve の3つのCLIを導入します。
  • 生の TSV ログの代わりに、信頼度スコア付きのランキング結果と明確な次のステップで目覚めることを約束します。
  • 留意点として、ノイズフロアは約5回の実験後に安定します。autosteerの提案はカテゴリレベルです。autoevolveは最新で最も未完成です。pip install autojudge autosteer autoevolve でインストールできます。
[P] Built confidence scoring for autoresearch because keeps that don't reproduce are worse than discards

autoresearchを約1週間運用しています。H100で1晩あたり約100件の実験。キープ率は約15%で、Karpathyが自身のディスカッションスレッド(#32と#43)に投稿した内容と一致します。

問題は、キープ/ディスカードのループ自体ではありません。それは機能します。問題は、それらのキープのいくつかが長持ちしないことです。Karpathyのセッション #43 は、5% のウォームアップ(セッション #32 のキープ)が再実行されると実際にパフォーマンスを悪化させることを示しています。 val_bpb の 0.02% の改善は、実際の勝利となる可能性もあれば GPU の非決定論性かもしれません。長時間の実行の後には状況が悪化します:単一のキープにつき 68 件の実験。

偽のキープの上に基づいて構築すると(それに基づいてアーキテクチャを変更し、さらに多くの実験を上に積み重ねると)、ノイズを積み重ねてしまいます。クリーンな破棄よりも悪いです。

そこで私は3つのCLIを作成しました:

autojudge は、最近の実験からノイズフロアを推定し、結果がパレート前線(val_bpb 対 memory)上にあるかを確認し、信頼度スコア付きの判定を返します:STRONG_KEEP、KEEP、MARGINAL、RETEST、DISCARD、または CRASH。MARGINAL は「これはノイズの可能性があるため、これに基づいて構築する前に再テストしてください」という意味です。終了コードはスクリプト対応です。

autosteer は、どのカテゴリの実験(アーキテクチャ、ハイパーパラメータ、オプティマイザ)が歴史的に実際の改善を生み出したかを分析し、次に何を試すべきかを提案します。連勝中はエクスプロイトモード、行き詰まったときは探索します。ランダムウォークを停止します。

autoevolve はより実験的です。複数のエージェントを別々の git ワークツリーに配置し、異なる戦略で同じ問題に競わせます。勝利したアイデアは相互に影響を与え合います。

実践上の違い:TSV を見てどのキープが本物か推測する代わりに、信頼度スコア付きのランキング結果と明確な次の手を得られます。

注意点:ノイズフロアの推定には安定させるため約5件の実験が必要です。autosteer の提案はカテゴリレベルであり、因果関係を示すものではありません。autoevolve は最新で、最も洗練されていません。

pip install autojudge autosteer autoevolve

https://preview.redd.it/ekm1db5lfmpg1.png?width=800&format=png&auto=webp&s=68265f92001c7582d049a74969e8bf0993e021d9

投稿者: /u/dean0x
[リンク] [コメント]