マルチモーダル潜在リプレイと増分調整を用いた生涯模倣学習

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

現実的なメモリとデータ制約の下で、逐次タスクを跨ぐ継続的なポリシー改良を可能にする生涯模倣学習フレームワークを紹介する。
従来の経験リプレイとは異なり、本手法は視覚・言語・ロボットの状態情報の圧縮表現を保存して将来の学習を支えるマルチモーダル潜在空間の中だけで動作します。
増分的特徴調整機構を追加し、角度マージン制約を用いて適応を安定化させ、タスク埋め込みのタスク間の識別性を保持します。
LIBEROベンチマークにおいて新しい最先端を確立し、AUCで10〜17ポイントの向上と従来法と比べて忘却を最大65%低減することを報告し、アブレーション研究により各コンポーネントの有効性を確認します。
著者は提供されたGitHubリンクでコードを公開しています。

私たちは、現実的なメモリとデータ制約の下で、逐次タスクにわたる継続的なポリシー改良を可能にする生涯模倣学習フレームワークを導入します。私たちのアプローチは、従来の経験リプレイとは異なり、視覚・言語・ロボットの状態情報の圧縮表現を保存・再利用して将来の学習を支援する、完全にマルチモーダル潜在空間内で動作します。適応をさらに安定化させるため、角度マージン制約を用いてタスク埋め込みの進化を正則化する増分的特徴調整機構を導入し、タスク間の識別性を保持します。私たちの手法はLIBEROベンチマークにおいて新しい最先端を確立し、AUCで10〜17ポイントの向上を達成し、従来の先行手法と比較して忘却を最大65%低減します。アブレーション研究は各コンポーネントの有効性を確認し、他の戦略を上回る一貫した改善を示しています。コードは以下のURLで公開されています: https://github.com/yfqi/lifelong_mlr_ifa.

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

マルチモーダル潜在リプレイと増分調整を用いた生涯模倣学習

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer