互聯(lián)網(wǎng)公司普通進步迅速. 一方面, 業(yè)務(wù)飛速進步, 當前使用的方式和模型每天都在變革; 企業(yè)的產(chǎn)品也在經(jīng)歷一直的下線上線過程. 資料倉庫如何擁抱變革, 是難點之一.
互聯(lián)網(wǎng)的運營人員從了解經(jīng)營情況轉(zhuǎn)化為精細化運營, 這就于要求資料倉庫具備提供明細資料水平, 資料倉庫如何在龐大資料量的前提下, 實現(xiàn)滿足差異層次的資料提出和分析, 是難點之二.
資料經(jīng)過ETL后來到達應(yīng)用資料者手里; 提取資料和提出資料的需要往往來自差異的部門和出于差異的目標. 這普通會導致資料口徑不一致, 資料含意模糊, 甚至資料正確性很難校驗. 資料倉庫如何提升/增加資料口徑一致, 資料途徑可追溯性, 是難點之三.
資料倉庫的使用行業(yè)除了各個業(yè)務(wù)部門還包含技術(shù)部門自身. 因為海量資料解決, 互聯(lián)網(wǎng)的技術(shù)架構(gòu)越來越依賴大資料平臺的支持. 一個點上平臺每天都會有數(shù)以萬記的店鋪和商品更新, 數(shù)以億計的用戶日志, 訂單資料等. 這些資料在毫無保留的消息隊列匯總到資料倉庫中. 如果應(yīng)用資料倉庫進行再生產(chǎn)是技術(shù)架構(gòu)重點考慮的事情. 資料倉庫擁有其他資料平臺無奈比擬的橫向擴展和迭代計算水平, 可以直接或者間接面向用戶提供資料服務(wù). 這也是大資料的機遇之一.
咱們對于近源資料層的定位是可以"快速"的構(gòu)建基礎(chǔ)資料平臺. 不做業(yè)務(wù)相干的解決可以讓這局部的工作專一在大資料架構(gòu)正確性和穩(wěn)定性的問題.