新聞中心
别讓大(dà)數據背鍋 用好小(xiǎo)數據可(kě)能更有(yǒu)效
發布日期: 2020年03月12日

人(rén)人(rén)都在說大(dà)數據,但(dàn)并非每個(gè)場(chǎng)景都适合用大(dà)規模的數據存儲和(hé)處理(lǐ),因為(wèi)處理(lǐ)大(dà)數據集意味着需要更多(duō)的存儲和(hé)計(jì)算(suàn)資源,不是每家(jiā)客戶都有(yǒu)這樣的能力,而且在一些(xiē)細分場(chǎng)景中,小(xiǎo)數據可(kě)能更有(yǒu)效。

别讓大(dà)數據背鍋 用好小(xiǎo)數據可(kě)能更有(yǒu)效
别讓大(dà)數據背鍋 用好小(xiǎo)數據可(kě)能更有(yǒu)效(圖片來(lái)自erpinnews)

為(wèi)什麽要算(suàn)明(míng)白數據這本賬?全球互聯網用戶每天總計(jì)發送電(diàn)子郵件2940億封、發送推文5億條、在Facebook創建數據多(duō)達4PB。同時(shí),每天發送WhatsApp消息達到650億條。該報告同時(shí)預測明(míng)年全球數據總量将增長10倍,達到44ZB。互聯網飛速發展引發的數據大(dà)爆炸可(kě)謂是一把“雙刃劍”,在帶來(lái)經濟效益、促進社會(huì)發展的同時(shí),也使得(de)數據隐私面臨更大(dà)風險。

基于大(dà)數據的個(gè)性化推薦已屢見不鮮,似乎隻要數據維度和(hé)量級足夠豐富,AI對其的價值挖掘就會(huì)用之不竭。數據讓AI有(yǒu)了應用價值,如Facebook會(huì)利用AI來(lái)預測用戶的未來(lái)行(xíng)為(wèi),作(zuò)為(wèi)廣告投放的依據,所參考的信息包括:位置、設備信息、圖片/視(shì)頻浏覽記錄、WiFi連接狀态、好友(yǒu)關系、聊天內(nèi)容等等。

再如智能音(yīn)箱對用戶語音(yīn)語義的收集、無人(rén)駕駛系統對行(xíng)進路線的采集等等,人(rén)們除了要在數據合規的基礎上(shàng),開(kāi)放更多(duō)的數據源,還(hái)要借助區(qū)塊鏈等新技(jì)術或手段為(wèi)這些(xiē)數據建立完善的審核機制。

也就是說,大(dà)數據在提供數據畫(huà)像的同時(shí),自身除了成本,也在面臨更大(dà)的監管因素。而且,有(yǒu)時(shí)大(dà)數據在标簽上(shàng)識别會(huì)忽視(shì)個(gè)體的差異化。這就要提到小(xiǎo)數據,小(xiǎo)數據通(tōng)過各種終端記錄着用戶自己産生(shēng)的數據,例如每天運動所産生(shēng)的卡路裏、每次上(shàng)網的閱讀習慣和(hé)推薦、每次去超市的消費行(xíng)為(wèi)等等,這些(xiē)對數據的智能化決策更為(wèi)精細。

雖然小(xiǎo)數據不像大(dà)數據看起來(lái)那(nà)樣宏大(dà),但(dàn)對個(gè)體的價值卻不容忽視(shì),例如對于運動行(xíng)業的人(rén),身上(shàng)所穿戴的傳感器(qì)種類很(hěn)多(duō),可(kě)以監測運動員的轉向、加減速、運動指标等等因素,之後可(kě)以根據這些(xiē)數以百計(jì)的數據點對運動特征進行(xíng)分析,得(de)出有(yǒu)針對性的科學訓練效果。

同樣的例子也會(huì)發生(shēng)在工業場(chǎng)景,物聯網總是和(hé)大(dà)數據一起出現,但(dàn)局部應用裏面的數據總是由小(xiǎo)及大(dà)的。再如對于銷售人(rén)員來(lái)說,他們對廣告播放時(shí)間(jiān)、效果轉化、促銷時(shí)段這些(xiē)信息的要求通(tōng)常是精确到分秒(miǎo)的,這樣才能掌握用戶行(xíng)為(wèi)。

不過,對于這樣的數據進行(xíng)訓練,機器(qì)學習也隻是在大(dà)數據上(shàng)才有(yǒu)更好的效果,一旦遭遇小(xiǎo)數據集就會(huì)事倍功半。如果沒有(yǒu)那(nà)麽大(dà)的數據集,在設計(jì)深度學習網絡的時(shí)候對每一層和(hé)該層的神經元數量就要格外看重。如果是無監督學習,那(nà)麽通(tōng)過自動的編碼方式也能也可(kě)能避開(kāi)無标簽的數據,但(dàn)這種自監督式的預訓練能力并不是每個(gè)業務人(rén)員都能掌握的。

因此,如果把大(dà)數據和(hé)小(xiǎo)數據結合起來(lái)是否能甩掉鍋呢?大(dà)數據可(kě)以在頂層上(shàng)找到宏觀數據并對其進行(xíng)分層定位,這種調研的逐級深入就讓小(xiǎo)數據開(kāi)始發揮作(zuò)用,也就是對樣本顆粒度的分析,即小(xiǎo)數據讓“大(dà)數據”變小(xiǎo)。例如大(dà)數據關注的是性别、年齡、職業、消費能力,小(xiǎo)數據則更關心背後的成因,而這對人(rén)的畫(huà)像塑造是更貼切的。相應的,小(xiǎo)數據對畫(huà)像的精細化也可(kě)以讓大(dà)數據更精準。

與大(dà)數據相比,小(xiǎo)數據對場(chǎng)景和(hé)算(suàn)法更窄面,這樣的好處是對數據種類的選擇更明(míng)确,比如大(dà)數據的場(chǎng)景是工廠裏面的智能溫控系統,那(nà)麽小(xiǎo)數據的場(chǎng)景就是溫度檢測器(qì)搜集來(lái)的數據算(suàn)法應用。換句話(huà)說,電(diàn)商在網頁上(shàng)檢索到的用戶交易記錄,向用戶推薦感興趣的書(shū)籍,這種分析的過程就是小(xiǎo)數據。

如果隻盯住大(dà)數據不顧小(xiǎo)數據,那(nà)麽在大(dà)數據出問題時(shí)就可(kě)能讓它背了鍋,讓大(dà)數據變小(xiǎo)、小(xiǎo)數據變大(dà),才是真正的數據智能。


(來(lái)源: 中關村在線)