自律エージェント - 自己改善型ドメイン専門知識エージェント

Reddit r/artificial / 2026/4/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • オープンソースの「Auto agent」が、自律的に複数の領域で24時間以内にパフォーマンスを自己向上させ、その結果をオープンソースとして公開する自己改善型AIエージェントとして紹介されます。
  • 記事では、エージェントが失敗する主因は基盤となるモデルではなく、その「ハーネス」(ツール、システムプロンプト、オーケストレーション)にあると主張し、Auto agentはハーネスを反復的に調整するメタエージェントループを用います。
  • Auto agentは「ANY task」(あらゆるタスク)に対して設定可能だと説明され、著者はターミナル上のコーディングベンチマークと、スプレッドシート形式の金融モデリングの双方で改善が得られることを示しています。
  • 強調されている重要な技術は、同じモデルを使ってエージェントの出力を評価することです(例:「ClaudeがClaudeを管理する」)。これにより失敗の原因をより正確に診断し、改善の指針を得ることができます。
  • この取り組みは、人間のボトルネックを、反復・テストを自動化することで軽減し、事実上「人間をドメイン固有のタスク遂行能力へより速く訓練する」ものだ、という枠組みで捉えられています。

誰かがオープンソースのAIエージェントを公開して、複数の領域で<24時間のうちに自律的に自分自身を#1にまで引き上げた……そのうえで全部オープンソースにした

でも、実際に機能する理由はこれ:

- エージェントはクソみたいにダメ、モデルのせいではなく、エージェントの“ハーネス”(ツール、システムプロンプト等)のせい

- 自動エージェントはメタエージェントを作り、あなたのエージェントのハーネスを調整し、テストを実行して、また改良する——それを目標で#1になるまで繰り返す

- 一番いいところ:これをあらゆるタスクに設定できる。この記事ではターミナルベンチ(コード)とスプレッドシート(財務モデリング)に使っていて、両方でランキング首位を取った :)

- 秘密のコツ:エージェントを評価するのに“同じモデル”を使った——claudeをclaudeが管理する = 失敗した理由や改善方法の理解がより深くなる

人間がボトルネックだったわけで、これだけで時間を大幅に節約できるだけでなく、ドメイン固有のタスクに向けて人間を訓練する、より良い方法にもなっている

https://github.com/kevinrgu/autoagent

投稿者 /u/Infinite-pheonix
[リンク] [コメント]