ビデオセグメンテーションのためのライブ・インタラクティブ学習

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、インタラクティブなビデオセグメンテーションにおいてユーザー補正が多発するという課題に対し、推論時の人間の修正からモデルがオンライン学習して改善する「Live Interactive Training（LIT）」を提案しています。
LITの実装として、軽量なLoRAモジュールをその場で随時更新する「LIT-LoRA」を用い、同一動画の後続フレームでの性能向上と補正回数の削減を狙っています。
ベンチマークでは、困難ケースにおいて合計補正回数を平均18〜34%削減し、補正1回あたりのトレーニングオーバーヘッドは約0.5秒とされています。
さらに、他のセグメンテーションモデルへの適用や、CLIPベースのきめ細かな画像分類への拡張も示し、LITの汎用性を主張しています。