想象一下,如果我們開了一家零售店,數(shù)據(jù)能夠告訴我們明天將會來多少消費者、各種商品的銷量預(yù)計會是多少,我們是不是就可以從容地調(diào)整零售店的銷售策略,并最大化地控制庫存了?要知道,這些問題將對于零售店的利潤帶來直接的影響。
毫無疑問,預(yù)測分析的基礎(chǔ)是豐富、多維度且高質(zhì)量的數(shù)據(jù)。在不同的場景中,需要搜集的數(shù)據(jù)都是不一樣的。例如,在零售場景中,這些數(shù)據(jù)可能包括不同產(chǎn)品/時間/地點的銷售額組成,消費者的年齡/性別/收入分層,甚至是消費者的表情、情緒等基于計算機視覺的深度數(shù)據(jù),這些數(shù)據(jù)越多、準確性與即時性越高,那么就越有可能產(chǎn)生精準的預(yù)測結(jié)果。
而在網(wǎng)絡(luò)分析場景中,需要搜集的數(shù)據(jù)也遠不止簡單的頁面視圖跟蹤,還要確保盡可能多地記錄用戶行為的不同信號。這可能意味著用戶需要測量滾動行為、視頻消費、下載活動、購物或瀏覽活動、購物車進展等,有些數(shù)據(jù)需要工具的支撐,并需要得到用戶的授權(quán)。當然,這些數(shù)據(jù)越細致,可能支撐的洞察也就越深入。
需要注意的是,在搜集數(shù)據(jù)的過程中,一定要注意合規(guī)性的風(fēng)險。GDPR以及網(wǎng)絡(luò)安全法都已經(jīng)將數(shù)據(jù)安全保障作為一個必須要遵守的嚴格規(guī)范,因此,企業(yè)在搜集這些數(shù)據(jù)的過程中,要盡量避免額外、敏感數(shù)據(jù)的搜集,并最好能夠取得消費者的授權(quán)。此外,還需要注意這些數(shù)據(jù)在儲存、調(diào)用過程中的安全性。
說到數(shù)據(jù)處理,不可避免的會涉及到數(shù)據(jù)倉庫或是數(shù)據(jù)湖的使用,在之前的文章中,我們也提到了兩者應(yīng)該如何構(gòu)建,以及相關(guān)的問題,這里就不再贅述。我們需要注意的是,從數(shù)據(jù)搜集到數(shù)據(jù)處理的這個鏈路中,清除數(shù)據(jù)雜音、去掉重復(fù)或是錯誤數(shù)據(jù)對于降低數(shù)據(jù)體量,提升預(yù)測結(jié)果準確率有著至關(guān)重要的作用。
以零售店為例,這些數(shù)據(jù)應(yīng)該確保用戶以近乎實時的方式了解庫存,包括庫存不足、商品擺放錯誤,以及貨品補充。無論是店員還是總部員工,均可輕松地在用戶友好型界面上對相關(guān)信息進行查看、管理和優(yōu)先級劃分。訪問這種動態(tài)的真實數(shù)據(jù)還有助于進行戰(zhàn)略規(guī)劃,以提高銷量。它支持零售機構(gòu)了解各項決策所帶來的影響,比如改變商店布局和客戶路徑、降低庫存商品價格,或使用數(shù)字標牌展示商店特制或通用的企業(yè)訊息宣傳標語等。
對于擁有大規(guī)模數(shù)據(jù)集的用戶來說,通過深度學(xué)習(xí)等技術(shù)來進行大數(shù)據(jù)應(yīng)用是最佳的選擇。Hadoop 等大數(shù)據(jù)工具可用于并行處理大量信息,同時為用戶提供對底層集群資源的輕松透明管理,其往往支持圖形數(shù)據(jù)庫、傳輸分析、常規(guī)批處理、即席查詢和機器學(xué)習(xí),可以通過數(shù)據(jù)建模來生成數(shù)據(jù)預(yù)測結(jié)果。
對于數(shù)據(jù)規(guī)模中等或較小的用戶來說,通過BI工具來進行預(yù)測分析是更優(yōu)的選擇:雖然不少分析人員可以熟練地通過回歸分析等技能,來進行一些形式的預(yù)測分析,但是這對于時間、成本都將是一個考驗。而Data Analytics 數(shù)據(jù)分析平臺等BI工具提供了簡單、易使用的預(yù)測分析功能,讓這個過程變得更加輕松。