比如說在生產線上,在生產的數(shù)據(jù)庫里面,各種各樣的數(shù)據(jù),可能是銀行的業(yè)務數(shù)據(jù),也可能是電信運營商在交換機里面采集下來的數(shù)據(jù)等等,然后這些生產的數(shù)據(jù)通過ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,通過這個過程,我們可以把需要的數(shù)據(jù)放到數(shù)據(jù)倉庫里面,那這個數(shù)據(jù)倉庫就是多層模型中的第二層。
數(shù)據(jù)倉庫主要是給我們需要存放的數(shù)據(jù)提供一個物理基礎,我們對數(shù)據(jù)進行分析,原材料都放在這個數(shù)據(jù)倉庫里面,這幾年以來,除了數(shù)據(jù)倉庫這個概念,還興起了數(shù)據(jù)集市這個概念,數(shù)據(jù)集市其實就是部門級的數(shù)據(jù)倉庫,規(guī)模比較小一點的數(shù)據(jù)倉庫。
再上面一層是Data Exploration,這層主要做統(tǒng)計分析的事情,比如我們算均值、標準差、方差、排序、求最小\大值、中位數(shù)、眾數(shù)等等,這些統(tǒng)計學比較常用的指標,另外還有些SQL查詢語句,總的來說主要是做一些目標比較明確,計算方法比較清楚的事情。
第四層是Data Mining數(shù)據(jù)挖掘層,數(shù)據(jù)挖掘與數(shù)據(jù)分析(統(tǒng)計分析)有什么區(qū)別呢,數(shù)據(jù)分析往往是統(tǒng)計量和算法比較清楚,數(shù)據(jù)挖掘往往是目標不是很清楚,在實現(xiàn)目標的過程中采用什么方法不能確定,所以數(shù)據(jù)挖掘比數(shù)據(jù)分析難度要高很多。
常用的數(shù)據(jù)分析工具,包括一些廠商的數(shù)據(jù)庫產品,包括IBM的DB2、甲骨文的Oracle數(shù)據(jù)庫。這些廠商的數(shù)據(jù)庫本身帶有一些統(tǒng)計分析的包,里面有些標準的功能可以做數(shù)據(jù)分析工作,但用這些自帶的數(shù)據(jù)分析工具功能相對不夠專業(yè)。主要反映在缺乏標準的統(tǒng)計函數(shù),比如做一個線性回歸模型,需要寫一大堆SQL語句,甚至要寫一個plsql程序才能完成。但是在專業(yè)的統(tǒng)計軟件只需要寫一個簡單的函數(shù)就可以完成。
展現(xiàn)層在數(shù)據(jù)分析中是一個很重要的組成部分,在大家的心目中數(shù)據(jù)分析軟件只是讀數(shù)據(jù)和算數(shù)據(jù),結果算出來就OK了。但其實結果算出來以后對于數(shù)據(jù)分析還遠沒有結束,還需要把結果展現(xiàn)出來,有些時候可能結果的展現(xiàn)比計算花的時間還要多。
根據(jù)信息圖顯示,Android先生的頭發(fā)有47%的可能是黑色的,戴眼鏡的幾率為37%,有36%的可能是北美人,30%的可能臉上長雀斑。71%的時 間會穿T恤,下身穿牛仔褲的時間占了62%。工作只占了38%,玩游戲卻占了62%,平均每個月會用掉582MB的數(shù)據(jù)流量。這種圖稱為信息圖,在數(shù)據(jù)分析這個行業(yè)里面,是數(shù)據(jù)展現(xiàn)工作的主要組成部分。