1 Ανοίξτε ένα απλό κείμενο εφαρμογής επεξεργασίας , όπως το Σημειωματάριο , το οποίο περιλαμβάνεται στα Microsoft Windows , ή TextEdit του Mac OS X , όπου θα συγγραφέα ένα Python Web εφαρμογή bot .
2
Ξεκινήστε το σενάριο Python περιλαμβάνοντας τις ακόλουθες γραμμές κώδικα , και αντικαθιστώντας το παράδειγμα URL με τη διεύθυνση URL της ιστοσελίδας που θέλετε να σαρώσετε και το όνομα της βάσης του παραδείγματος με τη βάση δεδομένων που θα αποθηκεύει τα αποτελέσματα :
urllib2 εισαγωγής , εκ νέου , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql » εικόνων
3
Συμπεριλάβετε τις ακόλουθες γραμμές κώδικα καθορίζουν τη σειρά των λειτουργιών που το bot Web θα ακολουθήσει :
def uniq ( επ. ) : = { που } χάρτη ( set.__setitem__ , επ. , [ ] ) επιστρέφει set.keys ( )
4
Αποκτήστε τις διευθύνσεις URL στη δομή της ιστοσελίδας , χρησιμοποιώντας τις παρακάτω γραμμές κώδικα :
def geturls ( url ) : items = [ ] = αίτηση urllib2.Request ( url ) request.add.header ( «Χρήστης» , « bot_name ;) » ) περιεχόμενο = urllib2.urlopen (αίτηση) . read ( ) στοιχεία = re.findall ( ' href = " http://. ; " » , περιεχόμενο) urls = [ ] επιστροφή urls
5
Ορίστε τη βάση δεδομένων που το bot Web θα χρησιμοποιήσει και να προσδιορίσει ποιες πληροφορίες θα πρέπει να αποθηκεύει για να ολοκληρωθεί κάνει το bot Web :
db = ανοικτό ( db_name , 'a') allurls = uniq ( geturls ( enter_point ) )
Η 6
Αποθηκεύστε το αρχείο κειμένου και να το φορτώσετε σε ένα διακομιστή ή υπολογιστή με σύνδεση στο διαδίκτυο, όπου μπορείτε να εκτελέσετε το σενάριο και να αρχίσει σάρωση των σελίδων web .
εικόνων
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα