Forage V2：自律エージェント組織における知識の進化と転移

arXiv cs.AI / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Forage V2は、オープンワールド環境で自律エージェントが「分母の見落とし（denominator blindness）」に陥って達成範囲を過小評価する問題に対し、V1の共同進化型評価と手法隔離を“学習する組織”へ拡張することで対応します。
この手法では、複数回の実行を通じて知識を蓄積し、モデル能力が異なる場合でも知識を転移できるようにし、保存された評価ルールが劣化しないための制度的なガードレールを設けます。
Webスクレイピング、APIクエリ、数学的推論の3種類のタスクでの検証では、6回の実行で知識エントリが0から54へ増え、ドメイン理解が深まるにつれて分母の推定が安定することが示されます。
知識転移は、強いモデル（Opus）の知識を弱いモデル（Sonnet）にシードして検証され、カバレッジのギャップを6.6ppから1.1ppへ縮めるだけでなく、コストを9.40→5.13 USDへ削減し、収束までのラウンド数も4.5対7.0へ短縮することが確認されています。
V2の主な貢献はアーキテクチャにあり、監査分離、コントラクト・プロトコル、組織メモリといった「制度」を設計して、将来のエージェントがモデル提供元や能力に依存せず、校正された知識（読めるドキュメント）を引き継いで信頼できるようにします。

要旨: 開かれた環境でのタスク（完了の境界が事前に与えられない）で動作する自律エージェントは、分母の盲目（denominator blindness）に直面します。すなわち、目標空間（ターゲット空間）の広がりを体系的に過小評価します。Forage V1は、評価の共同進化（独立したEvaluatorが「完了」が何を意味するかを発見する）と、方法の分離（EvaluatorとPlannerは互いのコードを見られない）によってこの問題に対処しました。V2は、単一の遠征から学習組織へとアーキテクチャを拡張します。経験は実行をまたいで蓄積され、モデル能力をまたいで移転され、制度的な安全策が知識の劣化を防ぎます。
私たちは、3種類のタスク（ウェブスクレイピング、APIクエリ、数学的推論）にまたがって2つの主張を示します。知識の蓄積: 6回の実行を通じて、知識エントリは0から54へ増加し、領域理解が深まるにつれて分母の推定値が安定します。知識の移転: 強いエージェント（Opus）の知識をもとに弱いエージェント（Sonnet）を初期化すると、6.6ppのカバレッジ差が1.1ppまで狭まり、コストは半減（9.40から5.13 USD）し、収束は半分のラウンド数で達成されます（平均4.5対7.0）。さらに、3つの独立した初期化済み実行が、まったく同じ分母推定値（266）に到達しており、これは組織的な知識が評価そのものを調整していることを示唆します。
V2の貢献はアーキテクチャにあります。つまり、監査の分離、契約プロトコル、組織メモリといった「制度」を設計することで、どのようなエージェントでも、投入時により信頼性が高くなるようにします。蓄積された経験は、組織的であり、モデルに依存せず、移転可能です。これは読みやすい文書として保存され、将来のあらゆるエージェントが、提供元や能力レベルにかかわらず継承できます。