大數(shù)據(jù)(英語:Big data),又稱為巨量資料,指的是在傳統(tǒng)數(shù)據(jù)處理應用軟件不足以處理的大或復雜的數(shù)據(jù)集的術語大數(shù)據(jù)的特點
體積大
數(shù)據(jù)量很重要。對于大數(shù)據(jù),將不得不處理大量的低密度,非結(jié)構(gòu)化數(shù)據(jù)。這可能是價值未知的數(shù)據(jù),例如Twitter數(shù)據(jù)供稿,網(wǎng)頁或移動應用程序上的點擊流或啟用傳感器的設備。對于某些組織,這可能是數(shù)十兆字節(jié)的數(shù)據(jù)。對于其他人,可能是數(shù)百PB。
PB是硬盤存儲容量單位,存儲容量:是該存儲設備上可以存儲數(shù)據(jù)的最大數(shù)量,通常使用千字節(jié)(kb kilobyte)、兆字節(jié)(MB megabyte)、吉字節(jié)(GB, gigabyte)、太字節(jié)(TB ,terabyte)和PB(Petabyte)、EB(Exabyte)等來衡量。1PB=1024TB=1024 * 1024 GB一部1080P高清電影 2G 左右,大概就是 50W部高清電影速度
速度是接收和(或可能)作用于數(shù)據(jù)的快速速率。通常,與直接寫入磁盤相比,數(shù)據(jù)流直接進入內(nèi)存的速度最高。一些支持互聯(lián)網(wǎng)的智能產(chǎn)品會實時或近乎實時地運行,因此需要實時評估和采取措施。
多樣性
多樣性是指可用的多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)類型經(jīng)過結(jié)構(gòu)化,可以整齊地放置在關系數(shù)據(jù)庫中。隨著大數(shù)據(jù)的興起,數(shù)據(jù)進入了新的非結(jié)構(gòu)化數(shù)據(jù)類型。非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)類型(例如文本,音頻和視頻)需要進行額外的預處理才能得出含義并支持元數(shù)據(jù)。
真實性
它是指數(shù)據(jù)中的不一致和不確定性,即可用數(shù)據(jù)有時會變得混亂,并且質(zhì)量和準確性難以控制。
大數(shù)據(jù)也是可變的,因為多種不同的數(shù)據(jù)類型和數(shù)據(jù)源會產(chǎn)生大量的數(shù)據(jù)維度。
價值
除非將其轉(zhuǎn)化為有用的東西,否則大量沒有價值的數(shù)據(jù)對公司沒有好處。
數(shù)據(jù)本身沒有用處或重要性,但需要將其轉(zhuǎn)換為有價值的信息以提取信息。
大數(shù)據(jù)作用指引產(chǎn)品開發(fā)
Netflix和寶潔等公司使用大數(shù)據(jù)來預測客戶需求。他們通過對過去和當前產(chǎn)品或服務的關鍵屬性進行分類并對這些屬性與產(chǎn)品的商業(yè)成功之間的關系進行建模,從而為新產(chǎn)品和服務建立了預測模型。此外,寶潔還使用焦點小組,社交媒體,測試市場和早期商店推出的數(shù)據(jù)和分析來計劃,生產(chǎn)和推出新產(chǎn)品。
預測性維護
可以預測機械故障的因素可能深深地埋在結(jié)構(gòu)化數(shù)據(jù)中,例如設備的年份,制造商和型號,以及覆蓋數(shù)百萬條日志條目,傳感器數(shù)據(jù),錯誤消息和發(fā)動機溫度的非結(jié)構(gòu)化數(shù)據(jù)。通過在問題發(fā)生之前分析這些潛在問題的征兆,組織可以更有效地部署維護并最大化零件和設備的正常運行時間。
提升客戶體驗
客戶競賽在進行中。現(xiàn)在比以往任何時候都更可能更清晰地了解客戶體驗。大數(shù)據(jù)使您能夠從社交媒體,Web訪問,呼叫日志和其他來源收集數(shù)據(jù),以改善交互體驗并最大程度地實現(xiàn)交付的價值。開始提供個性化報價,減少客戶流失并主動處理問題。
機器學習
機器學習現(xiàn)在是一個熱門話題。數(shù)據(jù)(尤其是大數(shù)據(jù))是原因之一。現(xiàn)在,我們可以教授機器而不是對其進行編程。大數(shù)據(jù)的可用性可訓練機器學習模型,從而使之成為可能。
推動創(chuàng)新
大數(shù)據(jù)可以通過研究人員,機構(gòu),實體和流程之間的相互依賴性,然后確定使用這些見解的新方法來幫助您進行創(chuàng)新。使用數(shù)據(jù)洞察力來改進有關財務和計劃考慮因素的決策。檢查趨勢以及客戶希望提供什么新產(chǎn)品和服務。實施動態(tài)定價。有無窮的可能性。
引申現(xiàn)在社交媒體(微信,微博,短視頻),電商都有海量數(shù)據(jù)。頭條可以根據(jù)用戶行為進行精準推送內(nèi)容或是廣告。電商可以根據(jù)數(shù)據(jù)推送有購買意向的產(chǎn)品。
當前大數(shù)據(jù)時代只要是有海量用戶,就可以根據(jù)用戶的行為進行分析從而衍生出新的價值信息。
人工智能的前提就是通過海量數(shù)據(jù),進行模型訓練從而形成自己的計算方式。16年時谷歌人工智能機器人阿爾法狗大敗世界圍棋冠軍李世石。圍棋是人類引以為傲的高智商游戲,但最終敗給了機器人。機器人就是前期通過海量數(shù)據(jù)進行計算不斷的完善。
大數(shù)據(jù)的快速發(fā)展,也帶來了很多問題。例如鼎鼎大名的臉書用戶隱私泄漏事件。大數(shù)據(jù)中含有很多用戶隱私數(shù)據(jù),不正當?shù)氖褂脮斐蔀碾y事故。
大數(shù)據(jù)未來還可以在更多的領域中使用,未來也將會出現(xiàn)更多的技術彌補大數(shù)據(jù)的漏洞。
請點贊支持下吆,留言關注交流。