継続学習における視覚-言語-行動整合性の情報理論的制約
arXiv cs.CV / 2026/3/17
📰 ニュースModels & Research
要点
- Info-VLA は、視覚-言語-行動モデルの情報を保存する継続学習フレームワークで、クロスモーダル情報構造を保持することにより壊滅的忘却を緩和することを目的とします。
- Replay Anchor Contrastive Learning を導入し、凍結された教師モデルから安定したアライメント・アンカーを作成して、表現空間におけるクロスモーダル整合性を維持します。
- クロスモーダル相互情報量最大化を採用し、視覚表現と言語表現の間の依存関係構造を相互情報量制約を介して保持します。
- このアプローチは安定性と可塑性のバランスを取り、継続学習の性能を向上させ、LIBERO ベンチマークで既存手法に対して保持と適応の両方で顕著な向上を示しました。
- 結果は、過去の整合性とクロスモーダル依存性を保持することが、オープンエンドなロボットの視覚-言語-行動(VLA)タスクに対して、より強力な継続学習をもたらす可能性を示唆しています。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning