數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。

我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。

不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。
數(shù)據(jù)清洗是與問(wèn)卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。

殘缺數(shù)據(jù)
這一類數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等。
對(duì)于這一類數(shù)據(jù)過(guò)濾出來(lái),按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時(shí)間內(nèi)補(bǔ)全。補(bǔ)全后才寫入數(shù)據(jù)倉(cāng)庫(kù)。
錯(cuò)誤數(shù)據(jù)
這一類錯(cuò)誤產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒(méi)有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫(kù)造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車操作、日期格式不正確、日期越界等。
這一類數(shù)據(jù)也要分類,對(duì)于類似于全角字符、數(shù)據(jù)前后有不可見(jiàn)字符的問(wèn)題,只能通過(guò)寫SQL語(yǔ)句的方式找出來(lái),然后要求客戶在業(yè)務(wù)系統(tǒng)修正之后抽取。
日期格式不正確的或者是日期越界的這一類錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,這一類錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來(lái),交給業(yè)務(wù)主管部門要求限期修正,修正之后再抽取。
重復(fù)數(shù)據(jù)
對(duì)于這一類數(shù)據(jù)——特別是維表中會(huì)出現(xiàn)這種情況——將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來(lái),讓客戶確認(rèn)并整理。

對(duì)于是否過(guò)濾,是否修正一般要求客戶確認(rèn),對(duì)于過(guò)濾掉的數(shù)據(jù),寫入Excel文件或者將過(guò)濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過(guò)濾數(shù)據(jù)的郵件,促使他們盡快地修正錯(cuò)誤,同時(shí)也可以作為將來(lái)驗(yàn)證數(shù)據(jù)的依據(jù)。
數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過(guò)濾掉,對(duì)于每個(gè)過(guò)濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶確認(rèn)。

完整性
單條數(shù)據(jù)是否存在空值,統(tǒng)計(jì)的字段是否完善;
全面性
觀賞某一列的全部數(shù)值,我們可以通過(guò)比較最大值,最小值,平均值,數(shù)據(jù)定義等來(lái)判斷數(shù)據(jù)是否全面;
合法性
數(shù)值的類型、內(nèi)容、大小是否符合我們?cè)O(shè)定時(shí)候的預(yù)想。例如:人類年齡超過(guò)1000歲,這個(gè)數(shù)據(jù)就是不合法的。
唯一性
數(shù)據(jù)是否重復(fù)記錄,例如:一個(gè)人的數(shù)據(jù)被重復(fù)記錄多次。我們清理數(shù)據(jù)的標(biāo)準(zhǔn)是使得數(shù)據(jù)標(biāo)準(zhǔn),干凈,連續(xù)。

大數(shù)據(jù)行業(yè)應(yīng)用廣泛,大數(shù)據(jù)職業(yè)的相關(guān)人才匱乏,人才缺口非常大。
職業(yè)選擇多達(dá)幾十種,要升職加薪很容易!可以說(shuō),未來(lái)的大數(shù)據(jù)工作,就意味著高工資、穩(wěn)定、廣泛的職業(yè)使用度、優(yōu)越感……