προετοιμαστεί σας πρόγραμμα με την αρχική ιστοσελίδα που θέλετε να κατεβάσετε . Προσθέστε τη διεύθυνση URL για αυτή τη σελίδα σε ένα νέο πίνακα της βάσης δεδομένων των URLs . 2
Στείλτε μια εντολή προς το web browser καθοδηγώντας το να φέρω αυτή την ιστοσελίδα , και να το αποθηκεύσετε σε ένα δίσκο . Μετακινήστε το δείκτη βάσης δεδομένων προς τα εμπρός ένα βήμα πέρα από το URL που μόλις αγόρασαν , η οποία θα δείξει τώρα στο τέλος του πίνακα .
Εικόνων 3
Διαβάστε την ιστοσελίδα στο πρόγραμμα , και να αναλύσει αυτό για συνδέσεις προς άλλες ιστοσελίδες . Αυτό γίνεται συνήθως με την έρευνα για το κείμενο string " http://", και συλλαμβάνοντας το κείμενο μεταξύ της χορδής και ένα χαρακτήρα τερματισμού (όπως "" , " . " , Ή " > " ) . Προσθέστε αυτούς τους συνδέσμους στον πίνακα της βάσης δεδομένων URL ? Ο δείκτης της βάσης δεδομένων θα πρέπει να παραμείνει στην κορυφή αυτής της νέας λίστας
Η 4
Δοκιμάστε τις καταχωρήσεις στον πίνακα της βάσης δεδομένων για την μοναδικότητα , και αφαιρέστε τυχόν διευθύνσεις URL που εμφανίζονται περισσότερες από μία φορές . .
5
Αν θέλετε να εφαρμόσετε ένα φίλτρο URL ( για παράδειγμα , για να αποτρέψει τη λήψη σελίδες από τις ιστοσελίδες σε διάφορους τομείς ) , θα εφαρμόζονται τώρα σε πίνακα της βάσης δεδομένων URL και αφαιρέστε τυχόν διευθύνσεις URL που δεν θέλετε για να κατεβάσετε .
Η 6
Δημιουργήστε ένα προγραμματικό θηλιά τόσο αράχνη σας επιστρέφει στο βήμα 2 παραπάνω . Αυτό θα κατεβάσετε αναδρομικά όλες τις διευθύνσεις URL συναντήσεις αράχνη σας . Αφαίρεση των διπλών URLs εξασφαλίζει ότι η αράχνη θα τερματίσει σωστά όταν φτάσει στο τελευταίο μοναδική διεύθυνση URL .
Η
εικόνων
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα