λογισμικό

* Γνώση Υπολογιστών >> λογισμικό >> λογισμικού βάσεων δεδομένων

Θεωρίες Καθαρισμός δεδομένων

Λάθη μπορούν να γίνουν κατά τη συλλογή και την ενοποίηση των δεδομένων , και οι αναλυτές πρέπει να ξέρετε πώς να εντοπίσει και να διορθώσει αυτά τα λάθη . Αυτό ονομάζεται καθαρισμού των δεδομένων , ή τρίψιμο δεδομένων . Αυτό δεν είναι μια ακριβής επιστήμη , και μερικές φορές η απόφαση για το τι να κάνουμε είναι να βασίζεται στην κρίση του αναλυτή ? Ωστόσο , ξέρει ότι όχι μόνο είναι σημαντικό να έχουμε μια επαρκή ποσότητα των δεδομένων - θα πρέπει να είναι από μια αξιόπιστη ποιότητα, πάρα πολύ . Σημασιολογία και μορφοποίηση
Η

Μια κοινή εργασία καθαρισμού των δεδομένων περιλαμβάνει την άρση των σφαλμάτων στη μορφοποίηση . Αυτό θα μπορούσε να είναι κάτι τόσο απλό όσο ανορθογραφίες που κατά τη συλλογή των δεδομένων ή την είσοδο , μέχρι τα προβλήματα με το σύμβολο χρησιμοποιείται για να διαχωρίσει καταχωρήσεις . Για παράδειγμα , φανταστείτε το ακόλουθο κομμάτι των δεδομένων που είναι μέσα σε ένα σύνολο δεδομένων , όπου μια απόστροφο χρησιμοποιείται για να διαχωρίσει καταχωρήσεις :

πουλιών » Club'42 Beacon Street'Boston

Αυτό θα μπορούσε να διαβαστεί ως εξής:

Bird WatchersClub42 Beacon StreetBoston

Αυτοματοποιημένα ερωτήματα και τα προγράμματα που χρησιμοποιούνται συχνά για να καθαρίσετε τα δεδομένα αυτού του σφάλματος .
εικόνων Ένταξη
Η

Μερικά σύνολα δεδομένων είναι μια χαρά από μόνη της , αλλά να καταστεί προβληματική από τη στιγμή που είναι ενσωματωμένα σε ένα μεγαλύτερο χώρο αποθήκευσης ή μια αποθήκη δεδομένων . Για παράδειγμα , η ηλικία μπορεί να αποθηκευτεί ως ημερομηνία γέννησης :

ηη /μμ /yymm /μμ /εεεε

Ή κατά σειρά :

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

σε ορισμένες περιπτώσεις , όπως η ημερομηνία γέννησης μορφοποίηση , είναι αρκετά απλό να εντοπιστούν σημασιολογικές δομές και να τυποποιήσει τις καταχωρήσεις . Σε περιπτώσεις όπως τις ηλικιακές ομάδες , ωστόσο , θα πρέπει να γίνονται υποθέσεις . Για παράδειγμα? Είναι ο αριθμός των ατόμων ηλικίας 25-35 ο μέσος όρος των ατόμων ηλικίας 20-30 και 30-40

Η Outliers
Η

Outliers είναι ; σημεία δεδομένων που βρίσκονται πολύ μακριά από το υπόλοιπο των στοιχείων . Για παράδειγμα, μια ηλικία των 600 , ή δοκιμή στείλει αρκετές φορές υψηλότερο από το μέσο όρο. Στην πρώτη περίπτωση , μπορείτε με ασφάλεια να υποθέσουμε ότι ήταν ένα τυπογραφικό λάθος , αλλά στην τελευταία αυτή δεν είναι τόσο προφανής . Όταν δεν ξέρεις αν είναι ένα ακραίο γεγονός είναι ένα λάθος ή μια νόμιμη σημείο δεδομένων , είναι κρίση σας αν θα αφαιρέσει ή όχι, λαμβάνοντας υπόψη τον σκοπό των στοιχείων .
Εικόνων δεδομένων που λείπουν

Θα πρέπει επίσης να αποφασίσετε τι να κάνετε εάν οποιαδήποτε στοιχεία λείπουν . Πρώτον , τα πρότυπα πρέπει να προσδιορίζονται με τη χρήση ερωτημάτων και στατιστικές αναλύσεις - η κατανομή των δεδομένων που λείπουν καθορίζει τι πρέπει να κάνετε . Για παράδειγμα , αν μια online έρευνα έχει δύο σελίδες , αλλά μόνο οι ερωτήσεις στην πρώτη σελίδα απαντήθηκαν , αυτή η πληροφορία μπορεί να χρησιμοποιηθεί για να βοηθήσει περιορίσετε τις φόρμες . Εάν τα δεδομένα που λείπουν είναι τυχαία κατανεμημένα και είναι στην ίδια μεταβλητή , μερικές φορές είναι δυνατόν να γίνουν εκτιμήσεις με βάση αυτό που είναι ήδη γνωστό .
Η
εικόνων

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα