ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

原文を読む →

共有:

要点

ALTK‑Evolveは、事前のオフライン学習だけに頼るのではなく、実際のタスク実行中に学習することで性能を向上させる「業務中学習（オン・ザ・ジョブ・ラーニング）」のアプローチを提案する。
この概念は、エンタープライズ環境で稼働している間に収集されるフィードバックや経験に基づいて、その挙動を適応できるエージェントの振る舞いに焦点を当てる。
本記事では、オン・ザ・ジョブ・ラーニングを、変化する環境やタスクの多様性に対してAIエージェントをより堅牢にするための実践的な道筋として位置づける。
ALTK‑Evolveは、チームがエージェントシステムを導入し、継続的に改善していく方法に影響を与え得る、エンタープライズ志向の研究／エンジニアリング構想として位置づけられている。

記事に戻る

ALTK‑Evolve: AIエージェントのためのオン・ザ・ジョブ・ラーニング

エンタープライズ記事公開日 2026年4月8日

Jayaram Radhakrishnan

TL;DR

ほとんどのAIエージェントは原則を学ぶ代わりにトランスクリプトを読み直すため、同じ過ちを繰り返し、新しい状況に教訓を転移できません。
ALTK‑Evolve は、生のエージェント軌跡を再利用可能なガイドラインに変換します。
ベンチマークでは、このアプローチによって信頼性が向上しました。特に難しいケース（AppWorldでΔ 14.2%）のマルチステップタスクで効果を発揮し、文脈（コンテキスト）を膨らませることなく成果を上げています。

「永遠のインターン」問題

毎朝、あなたのキッチンのことをすっかり忘れてしまうのに、すべての料理本は暗記している、天才的なラインクックを想像してください。あなたのオーブンが熱く稼働していることも、常連客が「塩を多めに」していることも覚えていません。レシピカードには従うものの、レモンが切れていると固まってしまいます。これがほとんどのAIエージェントの姿です。プロンプトに従うことには優れている一方で、あなたの環境に関する知恵を蓄積することが苦手です。昨日のログをプロンプトにそのまま突っ込んでも、彼らは歴史を読み直すだけで、そこから一般化する助けにはなりません。

ジュニアは「ヴィネグレット」と「鴨のオレンジソース（duck à l’orange）」で別々のレシピが必要です。シェフは「酸が脂肪のバランスを整える」ということを学び、それをあらゆる場面に応用します。同様に、信頼できるエージェントは、経験から原則を抽出して新しいタスクに適用すべきで、過去のものとほぼ同じ内容を繰り返すだけではいけません。これはまさにこの長期メモリ・サブシステムが行うことです。インタラクションの記録から候補となるガイドラインを作り、品質をフィルタリングし、行動の瞬間に必要な指針だけを注入します。エージェントにはトランスクリプトではなく原則が必要です。

最近のMITの調査では、95%のパイロットが失敗するのは、エージェントが業務の中で適応して学習しないためだと分かりました。ALTK-Evolveは、長期のエピソード記憶を用いてこの学習ギャップを埋め、エージェントがより良く推論できるようにします。

解決策：ALTK-Evolveによる長期メモリ

Evolveは、AIエージェントのためのメモリシステムであり、過去の実行から生成されたガイドラインを学習し、それを使うことで、エージェントが時間とともに改善していくのを支援できます。

運用上、このシステムは連続ループとして動作します。

下向きフロー（観察＆抽出）： ユーザーの発話、思考、ツール呼び出し、結果などを含む、エージェントの完全な軌跡をインタラクション層（例：Langfuse、またはOpenTelemetryベースの別の観測ツール）で取得します。プラグイン可能な抽出器がトレースから構造的なパターンを掘り起こし、それらを候補となるエンティティとして保持します。
上向きの流れ（洗練＆検索）： バックグラウンドでの「統合＆スコア」ジョブが重複をマージし、弱いルールを刈り込み、実証済みの戦略を強化することで、ガイドライン、ポリシー、SOP（標準作業手順書）といった高品質なエンティティのライブラリを進化させます。検索は、インタラクションレイヤーを通じて関連アイテムのみを取り出し、アプリケーションレイヤー上の文脈へ再び注入します。

このアプローチが機能する主な理由は次のとおりです：

判断力を教える： 単発の出来事を、タスクをまたいで転用できる携帯可能な戦略へと変換します。
ノイズを制御： スコアリングによって、記憶は必要で役に立つ状態のまま保たれ、増え続ける「ガラクタ箱」になりません。
段階的な開示（Progressive Disclosure）： 検索は必要なタイミングで行われ、すべてを文脈に詰め込むことはしません。

結果：特に難しいタスクで信頼性が向上

この枠組みを AppWorld で評価しました。ここでは、エージェントがAPIを介して現実的なマルチステップのタスクを完了し、1.8のアプリに対して平均9.5 APIを使用します。難しいケースでは、より複雑な制御フローが必要になります。ReActエージェントには、タスク指示と、事前に実行して生成した上位5つの取得ガイドライン（train/dev）を与え、未見のパーティション（test-normal）で検証しました。厳密な一貫性指標であるシナリオ目標達成（SGC）を報告します。これは、バリアント間すべてで成功することを要求する指標です。

難易度	ベースラインSGC	+ メモリ	Δ
簡単	79.0%	84.2%	+5.2
中級	56.2%	62.5%	+6.3
難しい	19.1%	33.3%	+14.2
集計	50.0%	58.9%	+8.9

評価から得られた主な結論は以下のとおりです：

汎化： 未見のTest-Normalタスクにおいて、エージェントは改善します。これは、レシピを暗記しているのではなく、原則を学習していることの証拠です。
複雑さのスケーリング： タスクが難しくなるほど、簡潔に学習されたガイドラインから得られる恩恵が大きくなり、最も難しいタスクで最大の向上が見られます。難しいタスクでは成功が相対で74%増加しました。これは、ガイドラインが入り組んだ制御フローをナビゲートするのに役立つためです。
一貫性： SGCの伸びは、単純なパス率の改善を上回り、「フラキ―」な挙動をシナリオのバリアント間で減らしました。ガイドラインは、エージェントがタスクを解くのを助けるだけでなく、バリアント間でも確実に解けるようにします。

実験の詳細は、論文の https://arxiv.org/abs/2603.10600 を参照してください。

始め方（進む道を選ぶ）

ALTK‑Evolve をエージェントに統合する方法は、いくつか選択肢があります。

Claude Code、Codex、IBM Bob でのノーコード（Liteモード）

Claude Code にプラグインをインストールします：

claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve@evolve-marketplace

以上です！このプラグインは、トラジェクトリ（軌跡）からエンティティを抽出し、それらをファイルとして手元のファイルシステムに保存します。Claude Code のフックを使って、自動的に検索（リトリーブ）します。

読むより見たいですか？短い Evolve-Lite Claude Code walkthrough（動画）をご覧ください（動画）： Demo

LiteモードでClaude Codeを使って学習する方法の例は、ウォークスルーをこちらで確認できます。

Lite モードは手軽に試せますが、制限もあります。たとえば、エージェントの各セッションをまたいだ洞察の抽出や、エンティティの統合およびガベージコレクションを行いません。以下の low-code 版と pro-code 版は、これらの制限に対応しています。

また、Codex と IBM Bob とのワンステップ統合も用意されています。ぜひお試しください！

ReAct エージェントによる low-code

altk_evolve.auto を 1 つだけ import してフラグを切り替え、Arize Phoenix UI へトレースを出力します。そうすれば、現在のスタックを変えることなく、トレースを同期して改善のガイドラインを生成できます。OpenAI、LiteLLM、Hugging Face のエージェントなど、一般的な LLM クライアントやエージェントフレームワークに対応しているため、現在のスタックをそのまま維持しつつ、可視性を追加できます。

既存プロジェクトへの組み込みがどれほど簡単かを確認するには、さまざまなフレームワーク統合を紹介するハンズオン例をご覧ください。構成や機能の詳細については、low-code トレースのドキュメントをお読みください。

CUGA による pro-code

ALTK-Evolve を CUGA に MCP 経由で直接統合し、低オーバーヘッドな学習ループを実現しました。各実行の前に、get_guidelines の MCP ツールを呼び出して、タスクに特化したステアリングを提示し、試行錯誤を減らします。実行後は、CUGA が save_trajectory を通じて構造化された実行トレースを返し、Evolve が実際に起きたことから学習して、将来のガイダンスを改善できるようにします。その結果、透明性があり、合成（コンポーザブル）可能で、導入しやすいまま、時間とともに良くなっていく統合が得られます。

ビジュアルで見てみたいですか？ CUGA 統合のウォークスルー をご覧ください：動画

試してみて & あなたのエージェントが学んだことを教えてください

あなたのエージェントは、毎朝インターとして目覚めるような存在であるべきではありません。このアプローチは、仕事しながら学べるようにします。 Claude Code、Codex、IBM Bob を使っているなら、数分で試せて、エージェントがどのように改善するかを確認できます。

リポジトリにスターを付けてください。他の人がプロジェクトを見つけやすくなり、次に私たちが作るものの方向性も直接ガイドしてくれます。

Code: https://github.com/AgentToolkit/altk-evolve
Docs: https://agenttoolkit.github.io/altk-evolve
クイックスタートのチュートリアル: https://agenttoolkit.github.io/altk-evolve/tutorials/
フィードバック & アイデア: GitHub の issue を作成するか、discussions に参加してください。具体的なユースケース、ベンチマーク、統合のリクエストは特に役立ちます。

デモを見る

Claude Codeのウォークスルー（動画）： デモ
OpenAI Codexのウォークスルー（動画）： デモ
IBM Bobのデモウォークスルー（動画）： デモ
CUGAの統合ウォークスルー：動画

この著者のその他の記事

IT-BenchとMASTを使って、企業エージェントが失敗する理由をIBMとUCバークレーが診断する

2026年2月18日

AssetOpsBench: AIエージェントのベンチマークと産業の現実のギャップを埋める

2026年1月21日

返却形式: {"translated": "翻訳されたHTML"}コミュニティ

編集プレビュー

テキスト入力にドラッグして、貼り付けるか、ここをクリックして画像、音声、動画をアップロードします。

ここをタップ、または貼り付けて画像をアップロード

· 登録またはログインしてコメント

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

Dev.to

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

要点

ALTK‑Evolve: AIエージェントのためのオン・ザ・ジョブ・ラーニング

TL;DR

「永遠のインターン」問題

解決策：ALTK-Evolveによる長期メモリ

結果：特に難しいタスクで信頼性が向上

始め方（進む道を選ぶ）