1 Ανοίξτε το IDLE επεξεργαστή κειμένου σε Program Files ( ή Εφαρμογές για Macintosh ) στο Κατάλογος Python . Ανοίγει ένα κενό αρχείο πηγαίου κώδικα 2
Εισαγωγή του " Html5lib " μονάδα γράφοντας τις ακόλουθες δηλώσεις στην κορυφή του αρχείου πηγαίου κώδικα : .
Εισαγωγής html5lib
από html5lib treebuilders εισαγωγής , treewalkers , serializer
εισαγωγής urllib2 εικόνων
3
Δημιουργήστε μια νέα HTML 5 parser , το οποίο θα χρησιμοποιήσετε για να διαβάσετε μια ιστοσελίδα HTML . Δηλώνοντας μια νέα parser γράφοντας τα εξής :
αναλυτή = html5lib.HTMLParser ( )
Η 4
Ανοίξτε μια ιστοσελίδα περνώντας το όνομά της στο urllib2.urlopen λειτουργία . Για παράδειγμα , αν θέλετε να ανοίξετε " www.website_adddress.com », γράφουν τα εξής : .
URL = urllib2.urlopen ( " http://www.website_address.com » ) read ( )
5
Περάστε την ιστοσελίδα στην HTML 5 parser για να λάβετε μια αναπαράσταση δέντρων . Αποθηκεύστε αυτή την αναπαράσταση σε μια μεταβλητή με το όνομα «δέντρο» γράφοντας την ακόλουθη δήλωση :
δέντρο = parser.parse ( URL )
Η 6
Δημιουργήστε ένα δέντρο walker σαν αυτό :
treeWalker = treewalkers.getTreeWalker ( " dom " )
Η 7
Περπατήστε μέσα από το δέντρο χρησιμοποιώντας το δέντρο περιπατητή . Το δέντρο περιπατητής θα επιστρέψει μια ροή των πληροφοριών που ανακαλύπτει στην HTML 5 ιστοσελίδα . Για να περπατήσετε μέσα από το δέντρο , να γράψει το εξής :
ρεύμα = treeWalker ( δέντρο )
8
Serialize το ρεύμα , έτσι ώστε να μπορείτε εύκολα να το εξάγει στην κονσόλα . Μπορείτε να serialize το ρεύμα χρησιμοποιώντας τις ακόλουθες δύο καταστάσεις:
serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
εξόδου = serial.serialize ( stream)
Η 9
επαναλάβει μέσω της συνέχειες εξόδου του ρεύματος , όπως αυτό :
για το στοιχείο της παραγωγής :
Η 10
Εσοχή η γραμμή αμέσως μετά την προηγούμενη δήλωση και να γράψουν μια λειτουργία εκτύπωσης, όπως αυτό :
εκτύπωσης ( στοιχείο)
11
Εκτελέστε το πρόγραμμα πατώντας F5 . Το σενάριο θα ανοίξει και στη συνέχεια να αναλύσει την HTML 5 ιστοσελίδα . Το σενάριο τότε serializes τη δομή δέντρου της σελίδας και εξάγει το στην κονσόλα . Η έξοδος θα ποικίλουν ανάλογα με την ιστοσελίδα που θα επιλεγεί, αλλά μπορεί να μοιάζει κάπως έτσι :
Καλώς ήρθατε σε μια ιστοσελίδα !
Η
Η
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα