自律エージェントを導入する際の大きな課題の1つは、基盤となる大規模言語モデル(LLM)を再学習する必要なしに、エージェントが環境の変化に適応できるシステムを構築することです。
複数の大学の研究者によって開発された新しいフレームワーク「Memento-Skills」は、エージェントが自らスキルを伸ばす能力を与えることで、このボトルネックを解消します。論文の共同著者であるJun Wang氏はVentureBeatに対し、「現在の市場にある提供(OpenClawやClaude Codeなど)に、継続学習の機能を追加するのです」と述べました。
Memento-Skillsは、進化し続ける外部メモリとして機能し、基盤モデルを変更せずにシステムの能力を段階的に向上させます。このフレームワークは、エージェントが環境からフィードバックを受け取るにつれて更新・拡張できる一連のスキルを提供します。
プロダクション環境でエージェントを運用する企業チームにとって、それは重要です。代替案として考えられるのは、モデルの重みを微調整すること、あるいは手作業でスキルを構築することですが、どちらも大きな運用上の負担とデータ要件を伴います。Memento-Skillsは、その両方を回避します。
自己進化するエージェントを作る上での課題
自己進化するエージェントが重要なのは、固定化された言語モデルの制約を克服できるからです。モデルがデプロイされるとパラメータは固定されたままで、学習中にモデルにエンコードされた知識、ならびにその時点のコンテキストウィンドウに収まるものにしか対応できません。
モデルに外部メモリの足場を与えることで、高価で遅い再学習プロセスを経ずに改善できるようになります。しかし、現状のエージェント適応のアプローチの多くは、新しいタスクに対応するための手作りのスキルに大きく依存しています。自動のスキル学習手法もいくつか存在しますが、主にテキストのみのガイドを生成するにとどまり、実質的にはプロンプト最適化に相当します。別のアプローチでは、単一タスクの軌跡だけを記録しているだけで、異なるタスク間での転移にはつながりません。
さらに、これらのエージェントが新しいタスクに関連する知識を取り出そうとする際、通常はセマンティック類似性ルータ(標準的な密ベクトル埋め込みなど)に頼ります。しかし、セマンティックの重なりが大きいことは、行動面での有用性を保証しません。たとえば標準的なRAG(Retrieval-Augmented Generation)に頼るエージェントは、文書が企業用語を共有しているだけの理由で、「返金処理」のクエリを解くために「パスワードリセット」用のスクリプトを取得してしまうかもしれません。
「ほとんどの検索拡張生成(RAG)システムは、類似性ベースの検索に依存しています。しかし、スキルがマークダウン文書やコード断片といった実行可能な成果物として表現される場合、類似性だけでは最も効果的なスキルを選べない可能性があります」とWang氏は述べました。
Memento-Skillsはスキルをどのように保存・更新するのか
現在のエージェント型システムの制限を解決するために、研究者たちはMemento-Skillsを構築しました。論文ではこのシステムを「エージェント設計エージェントとして機能する、ジェネラリストであり、継続的に学習可能なLLMエージェントのシステム」と説明しています。過去の会話を受動的にログとして保持するのではなく、Memento-Skillsは、持続し、かつ進化する外部メモリとして働くスキル群を作成します。
これらのスキルは構造化されたマークダウンファイルとして保存され、エージェントの進化する知識ベースとして機能します。再利用可能な各スキル成果物は、3つの中核要素から構成されます。スキルが何で、どのように使うべきかを示す宣言的な仕様が含まれます。言語モデルの推論を導くための、専門的な指示やプロンプトも含まれます。そして、タスクを実際に解決するためにエージェントが実行する実行可能なコードとヘルパースクリプトを格納します。
Memento-Skillsは、「Read-Write Reflective Learning(読み取り・書き込み・内省的学習)」という仕組みによって継続学習を実現します。メモリ更新を、受動的なデータログとしてではなく、能動的な方策反復として捉えることで構成されています。新しいタスクに直面したとき、エージェントは専門のスキルルータに問い合わせ、セマンティック的に最も近いものだけではなく、行動面で最も関連性の高いスキルを取得し、それを実行します。
エージェントがスキルを実行しフィードバックを受け取った後、システムは学習ループを閉じるために結果を内省します。何が起きたかのログを追記するだけでなく、システムは能動的にメモリを変異(アップデート)させます。実行が失敗した場合、オーケストレータがトレースを評価し、スキル成果物を書き換えます。つまり、特定の失敗モードを修正するために、コードまたはプロンプトを直接更新することになります。必要であれば、まったく新しいスキルを作成します。
Memento-Skillsは、1ステップのオフライン強化学習プロセスによってスキルルータも更新します。この手法はテキストの重なりだけから学ぶのではなく、実行フィードバックから学習します。 「スキルの本当の価値は、それが全体のエージェント的ワークフローや下流の実行にどれだけ貢献するかにあります」とWang氏は述べました。「そのため、強化学習はより適した枠組みです。長期的な有用性に基づいて、エージェントがスキルを評価し選択できるからです」
プロダクション環境での後退(回帰)を防ぐために、自動化されたスキルの変異には自動ユニットテストのゲートが設けられています。システムは合成テストケースを生成し、更新されたスキルで実行して、グローバルなライブラリに変更を保存する前に結果を確認します。
Memento-Skillsは、自身の実行可能なツールを継続的に書き換え、洗練することで、固定された言語モデルが堅牢な筋肉記憶を構築し、能力をエンドツーエンドで段階的に拡張できるようにします。
自己進化するエージェントを試す
研究者たちは、Memento-Skillsを2つの厳格なベンチマークで評価しました。1つ目はGeneral AI Assistants(GAIA)で、複雑な多段推論、多モダリティの取り扱い、Web閲覧、ツール利用を必要とします。2つ目はHumanity's Last Exam(HLE)で、数学や生物学のような8つの多様な学術分野にまたがるエキスパートレベルのベンチマークです。システム全体は、基盤となる固定言語モデルとしてGemini-3.1-Flashを使用して動作しました。
システムは、スキルを検索してフィードバックを集める一方で自己進化の機能は持たない「Read-Write」のベースラインと比較されました。研究者たちはまた、自作のスキルルータを、BM25やQwen3埋め込みを含む標準的なセマンティック検索ベースラインと対比して検証しました。
その結果、能動的に自己進化するメモリが、静的なスキルライブラリを大きく上回ることが示されました。多様性の高いGAIAベンチマークでは、Memento-Skillsは静的ベースラインに対してテストセットの精度を13.7ポイント改善し、52.3%に対して66.0%を達成しました。HLEベンチマークでは、ドメイン構造により大規模なタスク横断のスキル再利用が可能だったため、システムはベースラインの性能を2倍以上にし、17.9%から38.7%へと跳ね上がりました。
さらに、Memento-Skillsの専門的なスキルルータは、セマンティック類似性のせいで無関係なスキルが選ばれてしまう典型的な検索の罠を回避します。実験では、Memento-Skillsがエンドツーエンドのタスク成功率を80%まで押し上げることが示されました。これは、標準的なBM25検索が50%にとどまるのと比べて大きな差です。
研究者らは、Memento-Skillsがこの性能を非常に自然で構造化されたスキルの成長によって実現していることを観察しました。どちらのベンチマーク実験も、基本的なWeb検索やターミナル操作のような、5つの原子的なシードスキルだけから開始しました。GAIAベンチマークでは、エージェントがこのシード群を自律的に拡張し、多様なタスクに対応する41のスキルから成るコンパクトなライブラリを構築しました。エキスパートレベルのHLEベンチマークでは、システムがライブラリを動的に235の異なるスキルへとスケールさせました。
企業にとっての最適点を見つける
研究者たちは、GitHubのMemento-Skillsのコードを公開しており、すぐに利用できます。
エンタープライズ・アーキテクトにとって、このシステムの有効性はドメインの整合性にかかっています。単にベンチマークのスコアを見て判断するのではなく、主要なビジネス上のトレードオフは、エージェントが孤立したタスクを扱っているのか、それとも構造化されたワークフローを処理しているのかにあります。
「スキルの移転は、タスク間の類似度の度合いに左右されます」とWang氏は述べました。「まず、タスクが孤立している、あるいは弱くしか関連していない場合、エージェントは過去の経験に頼れず、相互作用を通じて学習しなければなりません。こうした散発的な環境では、タスクをまたいだ移転は限られます。次に、タスクがかなりの共通の構造を共有している場合は、これまでに獲得したスキルを直接再利用できます。ここでは、タスク間で知識が移転するため学習がより効率的になり、追加の相互作用がほとんど、あるいはまったくない状態でも、エージェントが新しい問題に対して良い成果を出せるようになります。」
このシステムは、知識を統合するために繰り返し現れるタスクのパターンを必要とするため、エンタープライズのリーダーは、今日この仕組みをどこに展開すべきで、どこは見送るべきかを正確に把握しておく必要があります。
「このアプローチには、ワークフローが最も適切な環境になる可能性が高いです。というのも、スキルを組み合わせ、評価し、改善できるような、構造化された環境を提供するからです」とWang氏は述べました。
ただし、まだこの枠組みに適していない領域への過度な展開には注意が必要だと、彼は警告しました。「この文脈で物理エージェントはほとんど未検討であり、さらなる調査が必要です。加えて、地平(ホライズン)が長いタスクでは、延々と続く一連の意思決定にわたって、協調、計画、そして持続的な実行を可能にするために、マルチエージェントのLLMシステムのような、より高度なアプローチが求められる場合があります。」
業界は、自律的に自身のプロダクションコードを書き換えるエージェントへと向かっていますが、ガバナンスとセキュリティは引き続き最優先事項です。Memento-Skillsは、自動ユニットテストのゲートのような基礎的な安全策を採用していますが、エンタープライズでの導入には、より広範な枠組みが必要になる可能性が高いでしょう。
「信頼できる自己改善を実現するには、パフォーマンスを評価し、一貫したガイダンスを提供できるように設計された評価システム、またはジャッジシステムが必要です」とWang氏は述べました。「無制限な自己改変を許可するのではなく、そのプロセスは、自己開発を導く形として構造化されるべきであり、フィードバックによってエージェントがより良い設計へと導かれるようにするべきです。」



