誰かがオープンソースのAIエージェントを公開して、複数の領域で<24時間のうちに自律的に自分自身を#1にまで引き上げた……そのうえで全部オープンソースにした
でも、実際に機能する理由はこれ:
- エージェントはクソみたいにダメ、モデルのせいではなく、エージェントの“ハーネス”(ツール、システムプロンプト等)のせい
- 自動エージェントはメタエージェントを作り、あなたのエージェントのハーネスを調整し、テストを実行して、また改良する——それを目標で#1になるまで繰り返す
- 一番いいところ:これをあらゆるタスクに設定できる。この記事ではターミナルベンチ(コード)とスプレッドシート(財務モデリング)に使っていて、両方でランキング首位を取った :)
- 秘密のコツ:エージェントを評価するのに“同じモデル”を使った——claudeをclaudeが管理する = 失敗した理由や改善方法の理解がより深くなる
人間がボトルネックだったわけで、これだけで時間を大幅に節約できるだけでなく、ドメイン固有のタスクに向けて人間を訓練する、より良い方法にもなっている
[リンク] [コメント]




