Μια κοινή εργασία καθαρισμού των δεδομένων περιλαμβάνει την άρση των σφαλμάτων στη μορφοποίηση . Αυτό θα μπορούσε να είναι κάτι τόσο απλό όσο ανορθογραφίες που κατά τη συλλογή των δεδομένων ή την είσοδο , μέχρι τα προβλήματα με το σύμβολο χρησιμοποιείται για να διαχωρίσει καταχωρήσεις . Για παράδειγμα , φανταστείτε το ακόλουθο κομμάτι των δεδομένων που είναι μέσα σε ένα σύνολο δεδομένων , όπου μια απόστροφο χρησιμοποιείται για να διαχωρίσει καταχωρήσεις :
πουλιών » Club'42 Beacon Street'Boston
Αυτό θα μπορούσε να διαβαστεί ως εξής:
Bird WatchersClub42 Beacon StreetBoston
Αυτοματοποιημένα ερωτήματα και τα προγράμματα που χρησιμοποιούνται συχνά για να καθαρίσετε τα δεδομένα αυτού του σφάλματος .
εικόνων Ένταξη
Η
Μερικά σύνολα δεδομένων είναι μια χαρά από μόνη της , αλλά να καταστεί προβληματική από τη στιγμή που είναι ενσωματωμένα σε ένα μεγαλύτερο χώρο αποθήκευσης ή μια αποθήκη δεδομένων . Για παράδειγμα , η ηλικία μπορεί να αποθηκευτεί ως ημερομηνία γέννησης :
ηη /μμ /yymm /μμ /εεεε
Ή κατά σειρά :
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
σε ορισμένες περιπτώσεις , όπως η ημερομηνία γέννησης μορφοποίηση , είναι αρκετά απλό να εντοπιστούν σημασιολογικές δομές και να τυποποιήσει τις καταχωρήσεις . Σε περιπτώσεις όπως τις ηλικιακές ομάδες , ωστόσο , θα πρέπει να γίνονται υποθέσεις . Για παράδειγμα? Είναι ο αριθμός των ατόμων ηλικίας 25-35 ο μέσος όρος των ατόμων ηλικίας 20-30 και 30-40
Η Outliers
Η
Outliers είναι ; σημεία δεδομένων που βρίσκονται πολύ μακριά από το υπόλοιπο των στοιχείων . Για παράδειγμα, μια ηλικία των 600 , ή δοκιμή στείλει αρκετές φορές υψηλότερο από το μέσο όρο. Στην πρώτη περίπτωση , μπορείτε με ασφάλεια να υποθέσουμε ότι ήταν ένα τυπογραφικό λάθος , αλλά στην τελευταία αυτή δεν είναι τόσο προφανής . Όταν δεν ξέρεις αν είναι ένα ακραίο γεγονός είναι ένα λάθος ή μια νόμιμη σημείο δεδομένων , είναι κρίση σας αν θα αφαιρέσει ή όχι, λαμβάνοντας υπόψη τον σκοπό των στοιχείων .
Εικόνων δεδομένων που λείπουν
Θα πρέπει επίσης να αποφασίσετε τι να κάνετε εάν οποιαδήποτε στοιχεία λείπουν . Πρώτον , τα πρότυπα πρέπει να προσδιορίζονται με τη χρήση ερωτημάτων και στατιστικές αναλύσεις - η κατανομή των δεδομένων που λείπουν καθορίζει τι πρέπει να κάνετε . Για παράδειγμα , αν μια online έρευνα έχει δύο σελίδες , αλλά μόνο οι ερωτήσεις στην πρώτη σελίδα απαντήθηκαν , αυτή η πληροφορία μπορεί να χρησιμοποιηθεί για να βοηθήσει περιορίσετε τις φόρμες . Εάν τα δεδομένα που λείπουν είναι τυχαία κατανεμημένα και είναι στην ίδια μεταβλητή , μερικές φορές είναι δυνατόν να γίνουν εκτιμήσεις με βάση αυτό που είναι ήδη γνωστό .
Η
εικόνων
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα