継続学習における視覚-言語-行動整合性の情報理論的制約

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

共有:

要点

Info-VLA は、視覚-言語-行動モデルの情報を保存する継続学習フレームワークで、クロスモーダル情報構造を保持することにより壊滅的忘却を緩和することを目的とします。
Replay Anchor Contrastive Learning を導入し、凍結された教師モデルから安定したアライメント・アンカーを作成して、表現空間におけるクロスモーダル整合性を維持します。
クロスモーダル相互情報量最大化を採用し、視覚表現と言語表現の間の依存関係構造を相互情報量制約を介して保持します。
このアプローチは安定性と可塑性のバランスを取り、継続学習の性能を向上させ、LIBERO ベンチマークで既存手法に対して保持と適応の両方で顕著な向上を示しました。
結果は、過去の整合性とクロスモーダル依存性を保持することが、オープンエンドなロボットの視覚-言語-行動（VLA）タスクに対して、より強力な継続学習をもたらす可能性を示唆しています。

Reddit r/MachineLearning

Reddit r/MachineLearning

Reddit r/LocalLLaMA

Reddit r/LocalLLaMA

Reddit r/MachineLearning