1 Ανοίξτε το πρόγραμμα επεξεργασίας Python . 2
Τοποθετήστε την τακτική ενότητα Έκφραση πληκτρολογώντας τα ακόλουθα :
εισαγωγή νέου εικόνων
3
Ορίστε μια λειτουργία για να αφαιρέσετε όλες τις ετικέτες HTML . Για παράδειγμα , πληκτρολογήστε τα εξής:
def delete_html ( δεδομένα ):
4
Διαχωρίστε τα στοιχεία κώδικα HTML , χρησιμοποιώντας τη λειτουργία " re.compile " για την κατάρτιση των τακτικών πρότυπα έκφρασης σε ένα αντικείμενο που μπορείτε να χρησιμοποιήσετε για την αναγνώριση προτύπων. Συνεχίζοντας το παράδειγμα , πληκτρολογήστε το εξής:
htmlPattern = re.compile ( r '<* . ; >' )
Σε αυτό το παράδειγμα , το " re.compile " χαρακτηριστικό λέει Python για να αναζητήσετε τη συμβολοσειρά " " <.. > ", το οποίο σηματοδοτεί την αρχή και το τέλος ετικέτες HTML
. Ο προσδιορισμός " . * ; " λέει Python για να ταιριάζει μόνο τις ετικέτες . Χωρίς τον προκριματικό , Python επιστρέφει το string "
Αντικαταστήστε ένα χώρο για όλα τα κώδικα HTML με τη χρήση του « sub" λειτουργία. Συνεχίζοντας το παράδειγμα , πληκτρολογήστε τα εξής:
επιστρέψει htmlPattern.sub ( '' , δεδομένα)
Σε αυτή την περίπτωση , η Python λωρίδες από τον κώδικα HTML και το αντικαθιστά με ένα κενό διάστημα . Σε αυτό το σημείο , ανάλογα με το πώς θέλετε να δομήσει τα δεδομένα , μπορείτε να χρησιμοποιήσετε το string λειτουργία " ταινία " για να αφαιρέσετε κενά ή να χρησιμοποιήσετε τις συνήθεις εκφράσεις , όπως " s + \\ ", για να καταργήσετε τα επιπλέον κενά .
Η
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα