ALTK‑Evolve: AIエージェントのためのオン・ザ・ジョブ・ラーニング
TL;DR
- ほとんどのAIエージェントは原則を学ぶ代わりにトランスクリプトを読み直すため、同じ過ちを繰り返し、新しい状況に教訓を転移できません。
- ALTK‑Evolve は、生のエージェント軌跡を再利用可能なガイドラインに変換します。
- ベンチマークでは、このアプローチによって信頼性が向上しました。特に難しいケース(AppWorldでΔ 14.2%)のマルチステップタスクで効果を発揮し、文脈(コンテキスト)を膨らませることなく成果を上げています。
「永遠のインターン」問題
毎朝、あなたのキッチンのことをすっかり忘れてしまうのに、すべての料理本は暗記している、天才的なラインクックを想像してください。あなたのオーブンが熱く稼働していることも、常連客が「塩を多めに」していることも覚えていません。レシピカードには従うものの、レモンが切れていると固まってしまいます。これがほとんどのAIエージェントの姿です。プロンプトに従うことには優れている一方で、あなたの環境に関する知恵を蓄積することが苦手です。昨日のログをプロンプトにそのまま突っ込んでも、彼らは歴史を読み直すだけで、そこから一般化する助けにはなりません。
ジュニアは「ヴィネグレット」と「鴨のオレンジソース(duck à l’orange)」で別々のレシピが必要です。シェフは「酸が脂肪のバランスを整える」ということを学び、それをあらゆる場面に応用します。同様に、信頼できるエージェントは、経験から原則を抽出して新しいタスクに適用すべきで、過去のものとほぼ同じ内容を繰り返すだけではいけません。これはまさにこの長期メモリ・サブシステムが行うことです。インタラクションの記録から候補となるガイドラインを作り、品質をフィルタリングし、行動の瞬間に必要な指針だけを注入します。エージェントにはトランスクリプトではなく原則が必要です。
最近のMITの調査では、95%のパイロットが失敗するのは、エージェントが業務の中で適応して学習しないためだと分かりました。ALTK-Evolveは、長期のエピソード記憶を用いてこの学習ギャップを埋め、エージェントがより良く推論できるようにします。
解決策:ALTK-Evolveによる長期メモリ
Evolveは、AIエージェントのためのメモリシステムであり、過去の実行から生成されたガイドラインを学習し、それを使うことで、エージェントが時間とともに改善していくのを支援できます。
運用上、このシステムは連続ループとして動作します。
- 下向きフロー(観察&抽出): ユーザーの発話、思考、ツール呼び出し、結果などを含む、エージェントの完全な軌跡をインタラクション層(例:Langfuse、またはOpenTelemetryベースの別の観測ツール)で取得します。プラグイン可能な抽出器がトレースから構造的なパターンを掘り起こし、それらを候補となるエンティティとして保持します。 返却形式: {"translated": "翻訳されたHTML"}
- 上向きの流れ(洗練&検索): バックグラウンドでの「統合&スコア」ジョブが重複をマージし、弱いルールを刈り込み、実証済みの戦略を強化することで、ガイドライン、ポリシー、SOP(標準作業手順書)といった高品質なエンティティのライブラリを進化させます。検索は、インタラクションレイヤーを通じて関連アイテムのみを取り出し、アプリケーションレイヤー上の文脈へ再び注入します。
このアプローチが機能する主な理由は次のとおりです:
- 判断力を教える: 単発の出来事を、タスクをまたいで転用できる携帯可能な戦略へと変換します。
- ノイズを制御: スコアリングによって、記憶は必要で役に立つ状態のまま保たれ、増え続ける「ガラクタ箱」になりません。
- 段階的な開示(Progressive Disclosure): 検索は必要なタイミングで行われ、すべてを文脈に詰め込むことはしません。
結果:特に難しいタスクで信頼性が向上
この枠組みを AppWorld で評価しました。ここでは、エージェントがAPIを介して現実的なマルチステップのタスクを完了し、1.8のアプリに対して平均9.5 APIを使用します。難しいケースでは、より複雑な制御フローが必要になります。ReActエージェントには、タスク指示と、事前に実行して生成した上位5つの取得ガイドライン(train/dev)を与え、未見のパーティション(test-normal)で検証しました。厳密な一貫性指標であるシナリオ目標達成(SGC)を報告します。これは、バリアント間すべてで成功することを要求する指標です。
| 難易度 | ベースラインSGC | + メモリ | Δ |
|---|---|---|---|
| 簡単 | 79.0% | 84.2% | +5.2 |
| 中級 | 56.2% | 62.5% | +6.3 |
| 難しい | 19.1% | 33.3% | +14.2 |
| 集計 | 50.0% | 58.9% | +8.9 |
評価から得られた主な結論は以下のとおりです:
- 汎化: 未見のTest-Normalタスクにおいて、エージェントは改善します。これは、レシピを暗記しているのではなく、原則を学習していることの証拠です。
- 複雑さのスケーリング: タスクが難しくなるほど、簡潔に学習されたガイドラインから得られる恩恵が大きくなり、最も難しいタスクで最大の向上が見られます。難しいタスクでは成功が相対で74%増加しました。これは、ガイドラインが入り組んだ制御フローをナビゲートするのに役立つためです。
- 一貫性: SGCの伸びは、単純なパス率の改善を上回り、「フラキ―」な挙動をシナリオのバリアント間で減らしました。ガイドラインは、エージェントがタスクを解くのを助けるだけでなく、バリアント間でも確実に解けるようにします。
実験の詳細は、論文の https://arxiv.org/abs/2603.10600 を参照してください。
始め方(進む道を選ぶ)
ALTK‑Evolve をエージェントに統合する方法は、いくつか選択肢があります。
Claude Code、Codex、IBM Bob でのノーコード(Liteモード)
Claude Code にプラグインをインストールします:
claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve@evolve-marketplace
以上です!このプラグインは、トラジェクトリ(軌跡)からエンティティを抽出し、それらをファイルとして手元のファイルシステムに保存します。Claude Code のフックを使って、自動的に検索(リトリーブ)します。
読むより見たいですか?短い Evolve-Lite Claude Code walkthrough(動画)をご覧ください(動画): Demo
LiteモードでClaude Codeを使って学習する方法の例は、ウォークスルーを こちら で確認できます。
Lite モードは手軽に試せますが、制限もあります。たとえば、エージェントの各セッションをまたいだ洞察の抽出や、エンティティの統合およびガベージコレクションを行いません。以下の low-code 版と pro-code 版は、これらの制限に対応しています。
また、Codex と IBM Bob とのワンステップ統合も用意されています。ぜひお試しください!
ReAct エージェントによる low-code
altk_evolve.auto を 1 つだけ import してフラグを切り替え、Arize Phoenix UI へトレースを出力します。そうすれば、現在のスタックを変えることなく、トレースを同期して改善のガイドラインを生成できます。OpenAI、LiteLLM、Hugging Face のエージェントなど、一般的な LLM クライアントやエージェントフレームワークに対応しているため、現在のスタックをそのまま維持しつつ、可視性を追加できます。
既存プロジェクトへの組み込みがどれほど簡単かを確認するには、さまざまなフレームワーク統合を紹介する ハンズオン例 をご覧ください。構成や機能の詳細については、low-code トレースのドキュメント をお読みください。
CUGA による pro-code
ALTK-Evolve を CUGA に MCP 経由で直接統合し、低オーバーヘッドな学習ループを実現しました。各実行の前に、get_guidelines の MCP ツールを呼び出して、タスクに特化したステアリングを提示し、試行錯誤を減らします。実行後は、CUGA が save_trajectory を通じて構造化された実行トレースを返し、Evolve が実際に起きたことから学習して、将来のガイダンスを改善できるようにします。その結果、透明性があり、合成(コンポーザブル)可能で、導入しやすいまま、時間とともに良くなっていく統合が得られます。
ビジュアルで見てみたいですか? CUGA 統合のウォークスルー をご覧ください: 動画
試してみて & あなたのエージェントが学んだことを教えてください
あなたのエージェントは、毎朝インターとして目覚めるような存在であるべきではありません。このアプローチは、仕事しながら学べるようにします。 Claude Code、Codex、IBM Bob を使っているなら、数分で試せて、エージェントがどのように改善するかを確認できます。
リポジトリにスターを付けてください。他の人がプロジェクトを見つけやすくなり、次に私たちが作るものの方向性も直接ガイドしてくれます。
- Code: https://github.com/AgentToolkit/altk-evolve
- Docs: https://agenttoolkit.github.io/altk-evolve
- クイックスタートのチュートリアル: https://agenttoolkit.github.io/altk-evolve/tutorials/
- フィードバック & アイデア: GitHub の issue を作成するか、discussions に参加してください。具体的なユースケース、ベンチマーク、統合のリクエストは特に役立ちます。






