概要: 動画大規模言語モデル(Video-LLMs)は、非定常な現実世界のデータに適応するために継続学習を必要とします。しかし、既存のベンチマークは最新の基盤モデルを評価する上で不十分です。多くは大規模な事前学習を行っていないモデルに依存しており、また、一般に用いられるベンチマークは単一のデータセットをサブタスクに分割するため、タスクの冗長性が高く、事前学習済みのVideo-LLMsにおける忘却(forgetting)がほとんど観測されません。これらの制約に対処するために、本研究ではVideo-LLMsのための継続的な動画理解に特化したベンチマークであるCL-VISTAを提案します。知覚、理解、推論にまたがる8つの多様なタスクを厳選することで、実質的な分布シフトを誘発し、致命的忘却(catastrophic forgetting)を効果的に顕在化させます。CL手法を体系的に評価するために、性能、計算効率、メモリ使用量という3つの重要な次元にまたがる、6つの異なるプロトコルから成る包括的な評価枠組みを構築します。特に、性能の次元には一般的な動画理解の評価が含まれており、CL手法が基盤的な知能を本当に向上させるのか、それとも単にタスク固有の過学習を誘発しているだけなのかを判定します。10の主要なCL手法に対する大規模なベンチマークの結果、基本的なトレードオフが明らかになりました。すべての次元において普遍的に優位な単一のアプローチは存在しません。致命的忘却をうまく緩和する手法は、汎化性能を犠牲にするか、あるいは計算量・メモリ量の負担が過大になりがちです。CL-VISTAが、多モーダル基盤モデルにおける継続学習の発展に向けて重要な知見を提供することを期待しています。
CL-VISTA:ビデオ大型言語モデルにおける継続学習のベンチマーク
arXiv cs.CV / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、現実的な非定常な分布シフトのもとでビデオ大型言語モデルの継続学習性能を評価するための新しいベンチマーク「CL-VISTA」を提案する。
- 既存のベンチマークは、データセットをサブタスクに分割することが多いため冗長性が高く、特に大規模な事前学習済みモデルでは忘却(忘れ)が不当に低く見積もられてしまうとして、結果を過大評価しがちだと主張する。
- CL-VISTAには、知覚、理解、推論にまたがる多様な継続学習タスクを8つ含め、壊滅的忘却をより適切に明らかにするために大きなシフトを引き起こすことを意図している。
- 著者らは、パフォーマンス(タスク固有の過学習を検出するための一般的なビデオ理解を含む)、計算効率、メモリ使用量を測る6つのプロトコルからなる広範な評価フレームワークを提案する。
- 10の主要な継続学習手法について大規模に検証した結果、内在的なトレードオフがあることが示される。すなわち、忘却を減らすアプローチは、汎化性能を損なうか、あるいは現実的でない計算/メモリコストを必要とすることが多い。




