概要: 大規模言語モデル(LLM)エージェントは複雑なタスクに対してますます用いられていますが、展開されたエージェントはしばしば静的なままで、ユーザーのニーズの進化に適応できていません。これにより、継続的なサービスの必要性と、変化するタスク分布に合わせて機能を更新する必要性との間に緊張が生じます。
OpenClawのような、20以上のチャネルにわたる多様なワークロードを扱うプラットフォームでは、既存の手法は知識を蒸留せず生の軌跡を保存するか、静的なスキルライブラリを維持するか、再訓練のために大幅なダウンタイムを必要とします。
私たちは、基本のLLMポリシーと再利用可能な行動スキルのライブラリを共同で進化させる継続的メタ学習フレームワーク、MetaClawを提案します。
MetaClawは2つの補完的なメカニズムを採用します。
スキル駆動の高速適応は、LLMエボルバーを介して失敗の軌跡を分析し、新しいスキルを合成して、ダウンタイムなしで即座に改善を可能にします。
機会主義的ポリシー最適化は、クラウドLoRAファインチューニングと、プロセス報酬モデル(RL-PRM)を用いた強化学習による勾配ベースの更新を行います。
これは、ユーザーが非アクティブな期間中に、機会主義的メタ学習スケジューラ(OMLS)によって起動され、システムの非アクティブ状態とカレンダーデータを監視します。
これらのメカニズムは相互に強化的です。洗練されたポリシーはスキル合成のより良い軌跡を生み出し、より豊富なスキルはポリシー最適化のより高品質なデータを提供します。
データ汚染を防ぐため、バージョニング機構はサポートデータとクエリデータを分離します。
プロキシベースのアーキテクチャに基づいて構築された MetaClaw は、ローカルGPUを必要とせず本番サイズのLLMへスケールします。
MetaClaw-BenchおよびAutoResearchClawでの実験は、スキル駆動の適応によって精度が最大で32%の相対的な向上を示しました。
全体のパイプラインはKimi-K2.5の精度を21.4%から40.6%へと向上させ、総合的な頑健性を18.3%高めます。
コードは https://github.com/aiming-lab/MetaClaw で公開されています。
MetaClaw: Just Talk — 野外でメタ学習と進化を遂げるエージェント
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MetaClawは、基礎となるLLMポリシーと再利用可能なスキルのライブラリを同時に進化させ、ダウンタイムなしに移り変わるユーザー需要に適応する継続的なメタ学習フレームワークを導入します。
- スキル駆動の高速適応は、失敗軌跡から新しいスキルを合成するLLM進化器を介して行われ、機会主義的ポリシー最適化はクラウドLoRAファインチューニングとプロセス報酬モデルを用いて行われ、Opportunistic Meta-Learning Schedulerによってユーザー非アクティブなウィンドウでトリガーされます。
- アプローチは、サポートデータとクエリデータを分離するバージョニング機構と、ローカルGPUを必要とせず本番サイズのLLMsをスケールさせるプロキシベースのアーキテクチャを採用しており、実際のワークロードへのデプロイを可能にします。
- MetaClaw-BenchおよびAutoResearchClawでの実証結果は、相対的精度向上が最大で32%、Kimi-K2.5での改善が21.4%から40.6%へ、総合的な堅牢性が18.3%向上を示します。コードはGitHubで公開されています。