大數據(英語:Big data),又稱為巨量資料,指的是在傳統數據處理應用軟件不足以處理的大或復雜的數據集的術語大數據的特點
體積大
數據量很重要。對于大數據,將不得不處理大量的低密度,非結構化數據。這可能是價值未知的數據,例如Twitter數據供稿,網頁或移動應用程序上的點擊流或啟用傳感器的設備。對于某些組織,這可能是數十兆字節的數據。對于其他人,可能是數百PB。
PB是硬盤存儲容量單位,存儲容量:是該存儲設備上可以存儲數據的最大數量,通常使用千字節(kb kilobyte)、兆字節(MB megabyte)、吉字節(GB, gigabyte)、太字節(TB ,terabyte)和PB(Petabyte)、EB(Exabyte)等來衡量。1PB=1024TB=1024 * 1024 GB一部1080P高清電影 2G 左右,大概就是 50W部高清電影速度
速度是接收和(或可能)作用于數據的快速速率。通常,與直接寫入磁盤相比,數據流直接進入內存的速度最高。一些支持互聯網的智能產品會實時或近乎實時地運行,因此需要實時評估和采取措施。
多樣性
多樣性是指可用的多種數據類型。傳統的數據類型經過結構化,可以整齊地放置在關系數據庫中。隨著大數據的興起,數據進入了新的非結構化數據類型。非結構化和半結構化的數據類型(例如文本,音頻和視頻)需要進行額外的預處理才能得出含義并支持元數據。
真實性
它是指數據中的不一致和不確定性,即可用數據有時會變得混亂,并且質量和準確性難以控制。
大數據也是可變的,因為多種不同的數據類型和數據源會產生大量的數據維度。
價值
除非將其轉化為有用的東西,否則大量沒有價值的數據對公司沒有好處。
數據本身沒有用處或重要性,但需要將其轉換為有價值的信息以提取信息。
大數據作用指引產品開發
Netflix和寶潔等公司使用大數據來預測客戶需求。他們通過對過去和當前產品或服務的關鍵屬性進行分類并對這些屬性與產品的商業成功之間的關系進行建模,從而為新產品和服務建立了預測模型。此外,寶潔還使用焦點小組,社交媒體,測試市場和早期商店推出的數據和分析來計劃,生產和推出新產品。
預測性維護
可以預測機械故障的因素可能深深地埋在結構化數據中,例如設備的年份,制造商和型號,以及覆蓋數百萬條日志條目,傳感器數據,錯誤消息和發動機溫度的非結構化數據。通過在問題發生之前分析這些潛在問題的征兆,組織可以更有效地部署維護并最大化零件和設備的正常運行時間。
提升客戶體驗
客戶競賽在進行中。現在比以往任何時候都更可能更清晰地了解客戶體驗。大數據使您能夠從社交媒體,Web訪問,呼叫日志和其他來源收集數據,以改善交互體驗并最大程度地實現交付的價值。開始提供個性化報價,減少客戶流失并主動處理問題。
機器學習
機器學習現在是一個熱門話題。數據(尤其是大數據)是原因之一。現在,我們可以教授機器而不是對其進行編程。大數據的可用性可訓練機器學習模型,從而使之成為可能。
推動創新
大數據可以通過研究人員,機構,實體和流程之間的相互依賴性,然后確定使用這些見解的新方法來幫助您進行創新。使用數據洞察力來改進有關財務和計劃考慮因素的決策。檢查趨勢以及客戶希望提供什么新產品和服務。實施動態定價。有無窮的可能性。
引申現在社交媒體(微信,微博,短視頻),電商都有海量數據。頭條可以根據用戶行為進行精準推送內容或是廣告。電商可以根據數據推送有購買意向的產品。
當前大數據時代只要是有海量用戶,就可以根據用戶的行為進行分析從而衍生出新的價值信息。
人工智能的前提就是通過海量數據,進行模型訓練從而形成自己的計算方式。16年時谷歌人工智能機器人阿爾法狗大敗世界圍棋冠軍李世石。圍棋是人類引以為傲的高智商游戲,但最終敗給了機器人。機器人就是前期通過海量數據進行計算不斷的完善。
大數據的快速發展,也帶來了很多問題。例如鼎鼎大名的臉書用戶隱私泄漏事件。大數據中含有很多用戶隱私數據,不正當的使用會造成災難事故。
大數據未來還可以在更多的領域中使用,未來也將會出現更多的技術彌補大數據的漏洞。
請點贊支持下吆,留言關注交流。