広告

ビデオセグメンテーションのためのライブ・インタラクティブ学習

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、インタラクティブなビデオセグメンテーションにおいてユーザー補正が多発するという課題に対し、推論時の人間の修正からモデルがオンライン学習して改善する「Live Interactive Training(LIT)」を提案しています。
  • LITの実装として、軽量なLoRAモジュールをその場で随時更新する「LIT-LoRA」を用い、同一動画の後続フレームでの性能向上と補正回数の削減を狙っています。
  • ベンチマークでは、困難ケースにおいて合計補正回数を平均18〜34%削減し、補正1回あたりのトレーニングオーバーヘッドは約0.5秒とされています。
  • さらに、他のセグメンテーションモデルへの適用や、CLIPベースのきめ細かな画像分類への拡張も示し、LITの汎用性を主張しています。

広告