XSkill: マルチモーダルエージェントにおける経験とスキルからの継続的学習
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、モデルパラメータを更新することなく継続学習を可能にするために必要な、再利用可能な2つの知識ストリームを特定した。1つは行動レベルのツール選択と意思決定のための経験、もう1つはタスクレベルの計画のためのスキルである。
- XSkillは両方のストリームを視覚的観察に基づかせ、視覚的要約とクロスロールアウト批評を用いて蓄積中に経験とスキルを蒸留・統合し、推論時にそれらを取得・適用する。
- さまざまな領域にまたがる5つのベンチマーク、4つのバックボーンモデルで評価したところ、XSkillはツールのみのベースラインおよび学習ベースのベースラインを一貫して上回り、ゼロショット一般化性能も優れている。
- 二つの知識ストリームがエージェントの推論行動を形作る上で補完的な役割を果たし、ドメイン横断での一般化を高めることが分析から示された。
要約: マルチモーダルエージェントは多様なツールを用いた複雑な推論タスクに現在取り組むことができるが、依然としてツールの使用が非効率で、オープンエンドな設定におけるオーケストレーションが柔軟性に欠ける。中心的な課題は、過去の軌跡から学習することによってパラメータ更新なしに継続的に改善できるようにすることである。我々は、この目標に不可欠な再利用可能な知識の2つの補完的な形態を特定した。経験はツール選択と意思決定のための簡潔な行動レベルの指針を提供し、スキルはプランニングとツール使用のための構造化されたタスクレベルの指針を提供する。これを踏まえ、マルチモーダルエージェントの経験とスキルからの継続的学習のためのデュアルストリームフレームワーク XSkill を提案する。XSkill は知識抽出と検索の両方を視覚的観察に基づかせる。蓄積過程では、XSkill は多経路のロールアウトから経験とスキルを視覚的に基づく要約とクロスロールアウト批評を介して蒸留・統合する。推論時には、現在の視覚的文脈に合わせてこの知識を取得・適応し、使用履歴を蓄積へフィードバックして継続的学習ループを形成する。多様な領域にわたる5つのベンチマークで4つのバックボーンモデルを用いて評価した結果、XSkill はツールのみのベースラインおよび学習ベースのベースラインを一貫して大幅に上回り、ゼロショット一般化も優れている。さらに分析すると、2つの知識ストリームがエージェントの推論挙動に補完的な影響を及ぼし、ドメイン横断での優れたゼロショット一般化を示すことが明らかになった。




