Combining Global and Local Attention with Positional Encoding for Video Summarization

Αυτή η εργασία παρουσιάζει μια νέα μέθοδο για την εποπτευόμενη δημιουργία περιλήψεων βίντεο.

Μέθοδος

Για να ξεπεραστούν τα μειονεκτήματα υφιστάμενων αρχιτεκτονικών δημιουργίας περιλήψεων που βασίζονται σε RNNs, σχετικά με τη μοντελοποίηση των εξαρτήσεων μεγάλης εμβέλειας των καρέ και την ικανότητα παραλληλοποίησης της εκπαίδευσης, το αναπτυγμένο μοντέλο βασίζεται στη χρήση μηχανισμών αυτοπροσοχής για την εκτίμηση της σημασίας των καρέ του βίντεο.

Αποτελέσματα

Πειράματα σε δύο σύνολα δεδομένων (SumMe και TVSum) καταδεικνύουν την αποτελεσματικότητα του προτεινόμενου μοντέλου σε σύγκριση με τις υπάρχουσες μεθόδους αυτοπροσοχής και την ανταγωνιστικότητά του έναντι άλλων state-of-the-art εποπτευόμενων προσεγγίσεων δημιουργίας περιλήψεων.