ALTK‑Evolve: AIエージェントの業務中学習(オン・ザ・ジョブ・ラーニング)

Hugging Face Blog / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • ALTK‑Evolveは、事前のオフライン学習だけに頼るのではなく、実際のタスク実行中に学習することで性能を向上させる「業務中学習(オン・ザ・ジョブ・ラーニング)」のアプローチを提案する。
  • この概念は、エンタープライズ環境で稼働している間に収集されるフィードバックや経験に基づいて、その挙動を適応できるエージェントの振る舞いに焦点を当てる。
  • 本記事では、オン・ザ・ジョブ・ラーニングを、変化する環境やタスクの多様性に対してAIエージェントをより堅牢にするための実践的な道筋として位置づける。
  • ALTK‑Evolveは、チームがエージェントシステムを導入し、継続的に改善していく方法に影響を与え得る、エンタープライズ志向の研究/エンジニアリング構想として位置づけられている。

ALTK‑Evolve: AIエージェントのためのオン・ザ・ジョブ・ラーニング

エンタープライズ 記事 公開日 2026年4月8日

TL;DR

  • ほとんどのAIエージェントは原則を学ぶ代わりにトランスクリプトを読み直すため、同じ過ちを繰り返し、新しい状況に教訓を転移できません。
  • ALTK‑Evolve は、生のエージェント軌跡を再利用可能なガイドラインに変換します。
  • ベンチマークでは、このアプローチによって信頼性が向上しました。特に難しいケース(AppWorldでΔ 14.2%)のマルチステップタスクで効果を発揮し、文脈(コンテキスト)を膨らませることなく成果を上げています。

「永遠のインターン」問題

毎朝、あなたのキッチンのことをすっかり忘れてしまうのに、すべての料理本は暗記している、天才的なラインクックを想像してください。あなたのオーブンが熱く稼働していることも、常連客が「塩を多めに」していることも覚えていません。レシピカードには従うものの、レモンが切れていると固まってしまいます。これがほとんどのAIエージェントの姿です。プロンプトに従うことには優れている一方で、あなたの環境に関する知恵を蓄積することが苦手です。昨日のログをプロンプトにそのまま突っ込んでも、彼らは歴史を読み直すだけで、そこから一般化する助けにはなりません。

ジュニアは「ヴィネグレット」と「鴨のオレンジソース(duck à l’orange)」で別々のレシピが必要です。シェフは「酸が脂肪のバランスを整える」ということを学び、それをあらゆる場面に応用します。同様に、信頼できるエージェントは、経験から原則を抽出して新しいタスクに適用すべきで、過去のものとほぼ同じ内容を繰り返すだけではいけません。これはまさにこの長期メモリ・サブシステムが行うことです。インタラクションの記録から候補となるガイドラインを作り、品質をフィルタリングし、行動の瞬間に必要な指針だけを注入します。エージェントにはトランスクリプトではなく原則が必要です。

最近のMITの調査では、95%のパイロットが失敗するのは、エージェントが業務の中で適応して学習しないためだと分かりました。ALTK-Evolveは、長期のエピソード記憶を用いてこの学習ギャップを埋め、エージェントがより良く推論できるようにします。

解決策:ALTK-Evolveによる長期メモリ

Evolveは、AIエージェントのためのメモリシステムであり、過去の実行から生成されたガイドラインを学習し、それを使うことで、エージェントが時間とともに改善していくのを支援できます。

運用上、このシステムは連続ループとして動作します。

  1. 下向きフロー(観察&抽出): ユーザーの発話、思考、ツール呼び出し、結果などを含む、エージェントの完全な軌跡をインタラクション層(例:Langfuse、またはOpenTelemetryベースの別の観測ツール)で取得します。プラグイン可能な抽出器がトレースから構造的なパターンを掘り起こし、それらを候補となるエンティティとして保持します。
  2. 返却形式: {"translated": "翻訳されたHTML"}
  3. 上向きの流れ(洗練&検索): バックグラウンドでの「統合&スコア」ジョブが重複をマージし、弱いルールを刈り込み、実証済みの戦略を強化することで、ガイドライン、ポリシー、SOP(標準作業手順書)といった高品質なエンティティのライブラリを進化させます。検索は、インタラクションレイヤーを通じて関連アイテムのみを取り出し、アプリケーションレイヤー上の文脈へ再び注入します。

architecture (1)

このアプローチが機能する主な理由は次のとおりです:

  • 判断力を教える: 単発の出来事を、タスクをまたいで転用できる携帯可能な戦略へと変換します。
  • ノイズを制御: スコアリングによって、記憶は必要で役に立つ状態のまま保たれ、増え続ける「ガラクタ箱」になりません。
  • 段階的な開示(Progressive Disclosure): 検索は必要なタイミングで行われ、すべてを文脈に詰め込むことはしません。

結果:特に難しいタスクで信頼性が向上

この枠組みを AppWorld で評価しました。ここでは、エージェントがAPIを介して現実的なマルチステップのタスクを完了し、1.8のアプリに対して平均9.5 APIを使用します。難しいケースでは、より複雑な制御フローが必要になります。ReActエージェントには、タスク指示と、事前に実行して生成した上位5つの取得ガイドライン(train/dev)を与え、未見のパーティション(test-normal)で検証しました。厳密な一貫性指標であるシナリオ目標達成(SGC)を報告します。これは、バリアント間すべてで成功することを要求する指標です。

難易度 ベースラインSGC + メモリ Δ
簡単 79.0% 84.2% +5.2
中級 56.2% 62.5% +6.3
難しい 19.1% 33.3% +14.2
集計 50.0% 58.9% +8.9

評価から得られた主な結論は以下のとおりです:

  • 汎化: 未見のTest-Normalタスクにおいて、エージェントは改善します。これは、レシピを暗記しているのではなく、原則を学習していることの証拠です。
  • 複雑さのスケーリング: タスクが難しくなるほど、簡潔に学習されたガイドラインから得られる恩恵が大きくなり、最も難しいタスクで最大の向上が見られます。難しいタスクでは成功が相対で74%増加しました。これは、ガイドラインが入り組んだ制御フローをナビゲートするのに役立つためです。
  • 一貫性: SGCの伸びは、単純なパス率の改善を上回り、「フラキ―」な挙動をシナリオのバリアント間で減らしました。ガイドラインは、エージェントがタスクを解くのを助けるだけでなく、バリアント間でも確実に解けるようにします。

実験の詳細は、論文の https://arxiv.org/abs/2603.10600 を参照してください。

始め方(進む道を選ぶ)

ALTK‑Evolve をエージェントに統合する方法は、いくつか選択肢があります。

Claude Code、Codex、IBM Bob でのノーコード(Liteモード)

Claude Code にプラグインをインストールします:

claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve@evolve-marketplace

以上です!このプラグインは、トラジェクトリ(軌跡)からエンティティを抽出し、それらをファイルとして手元のファイルシステムに保存します。Claude Code のフックを使って、自動的に検索(リトリーブ)します。

読むより見たいですか?短い Evolve-Lite Claude Code walkthrough(動画)をご覧ください(動画): Demo

LiteモードでClaude Codeを使って学習する方法の例は、ウォークスルーを こちら で確認できます。

Lite モードは手軽に試せますが、制限もあります。たとえば、エージェントの各セッションをまたいだ洞察の抽出や、エンティティの統合およびガベージコレクションを行いません。以下の low-code 版と pro-code 版は、これらの制限に対応しています。

また、CodexIBM Bob とのワンステップ統合も用意されています。ぜひお試しください!

ReAct エージェントによる low-code

altk_evolve.auto を 1 つだけ import してフラグを切り替え、Arize Phoenix UI へトレースを出力します。そうすれば、現在のスタックを変えることなく、トレースを同期して改善のガイドラインを生成できます。OpenAI、LiteLLM、Hugging Face のエージェントなど、一般的な LLM クライアントやエージェントフレームワークに対応しているため、現在のスタックをそのまま維持しつつ、可視性を追加できます。

既存プロジェクトへの組み込みがどれほど簡単かを確認するには、さまざまなフレームワーク統合を紹介する ハンズオン例 をご覧ください。構成や機能の詳細については、low-code トレースのドキュメント をお読みください。

CUGA による pro-code

ALTK-Evolve を CUGA に MCP 経由で直接統合し、低オーバーヘッドな学習ループを実現しました。各実行の前に、get_guidelines の MCP ツールを呼び出して、タスクに特化したステアリングを提示し、試行錯誤を減らします。実行後は、CUGA が save_trajectory を通じて構造化された実行トレースを返し、Evolve が実際に起きたことから学習して、将来のガイダンスを改善できるようにします。その結果、透明性があり、合成(コンポーザブル)可能で、導入しやすいまま、時間とともに良くなっていく統合が得られます。

ビジュアルで見てみたいですか? CUGA 統合のウォークスルー をご覧ください: 動画

試してみて & あなたのエージェントが学んだことを教えてください

あなたのエージェントは、毎朝インターとして目覚めるような存在であるべきではありません。このアプローチは、仕事しながら学べるようにします。 Claude Code、Codex、IBM Bob を使っているなら、数分で試せて、エージェントがどのように改善するかを確認できます。

リポジトリにスターを付けてください。他の人がプロジェクトを見つけやすくなり、次に私たちが作るものの方向性も直接ガイドしてくれます。

デモを見る

  • Claude Codeのウォークスルー(動画): デモ
  • OpenAI Codexのウォークスルー(動画): デモ
  • IBM Bobのデモウォークスルー(動画): デモ
  • CUGAの統合ウォークスルー動画

返却形式: {"translated": "翻訳されたHTML"}コミュニティ

編集プレビュー
テキスト入力にドラッグして、貼り付けるか、ここをクリックして画像、音声、動画をアップロードします。
ここをタップ、または貼り付けて画像をアップロード
コメント

· 登録または ログインしてコメント