ビデオセグメンテーションのためのライブ・インタラクティブ学習
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、インタラクティブなビデオセグメンテーションにおいてユーザー補正が多発するという課題に対し、推論時の人間の修正からモデルがオンライン学習して改善する「Live Interactive Training(LIT)」を提案しています。
- LITの実装として、軽量なLoRAモジュールをその場で随時更新する「LIT-LoRA」を用い、同一動画の後続フレームでの性能向上と補正回数の削減を狙っています。
- ベンチマークでは、困難ケースにおいて合計補正回数を平均18〜34%削減し、補正1回あたりのトレーニングオーバーヘッドは約0.5秒とされています。
- さらに、他のセグメンテーションモデルへの適用や、CLIPベースのきめ細かな画像分類への拡張も示し、LITの汎用性を主張しています。




