ClipTBP:境界を意識した学習に基づくClipペアによる時間境界予測と、モーメント検索
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、ビデオ・モーメント検索に向けてスニペット単位の類似度学習を超える、時間境界予測フレームワーク「ClipTBP」を提案する。
- 先行手法の大きな課題として、同一のテキストクエリに対応する複数の解答セグメント間の関係を考慮しない点を取り上げ、それを明示的にモデル化する。
- ClipTBPは、クライップ(クリップ)単位のアラインメント損失を導入してセグメント間の意味的関係を学習し、周辺文脈にある見た目が似ているが無関係な部分をより適切に除外できるようにする。
- 境界の精度向上のため、メインの境界損失と補助の境界損失の両方を用いて時間境界をより正確に予測する。
- 複数の既存モデルに適用した場合でも一貫して性能が改善し、曖昧なクエリ条件でも境界予測の頑健性が高いことを示す。




