什么是大數據
說起大數據,估計大家都覺得只聽過概念,但是具體是什么東西,怎么定義,沒有一個標準的東西,因為在我們的印象中好像很多公司都叫大數據公司,業務形態則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數據,在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大數據時代》提到了大數據的4個特征:
一個是數量大
一個是價值大
一個是速度快
一個是多樣性
第一個是數量比較大,只有數據體量達到了PB級別以上,才能被稱為大數據。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個G的數據。
第二個是價值大,你如果有1PB以上的全國所有20-35年輕人的上網數據的時候,那么它自然就有了商業價值,比如通過分析這些數據,我們就知道這些人的愛好,進而指導產品的發展方向等等。如果有了全國幾百萬病人的數據,根據這些數據進行分析就能預測疾病的發生,這些都是大數據的價值。
第三個就是多樣性,如果只有單一的數據,那么這些數據就沒有了價值,比如只有單一的個人數據,或者單一的用戶提交數據,這些數據還不能稱為大數據,所以說大數據還需要是多樣性的,比如當前的上網用戶中,年齡,學歷,愛好,性格等等每個人的特征都不一樣,這個也就是大數據的多樣性,當然了如果擴展到全國,那么數據的多樣性會更強,每個地區,每個時間段,都會存在各種各樣的數據多樣性。
第四個是速度快,就是通過算法對數據的邏輯處理速度非常快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。
大數據的行業應用
大數據無處不在,大數據應用于各個行業,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業都已經融入了大數據的印跡。
制造業,利用工業大數據提升制造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。
金融行業,大數據在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。
汽車行業,利用大數據和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。
互聯網行業,借助于大數據技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。
電信行業,利用大數據技術實現客戶離網分析,及時掌握客戶離網傾向,出臺客戶挽留措施。
能源行業,隨著智能電網的發展,電力公司可以掌握海量的用戶用電信息,利用大數據技術分析用戶用電模式,可以改進電網運行,合理設計電力需求響應系統,確保電網運行安全。
物流行業,利用大數據優化物流網絡,提高物流效率,降低物流成本。
城市管理,可以利用大數據實現智能交通、環保監測、城市規劃和智能安防。
生物醫學,大數據可以幫助我們實現流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘。
體育娛樂,大數據可以幫助我們訓練球隊,決定投拍哪種題財的影視作品,以及預測比賽結果。
安全領域,政府可以利用大數據技術構建起強大的國家安全保障體系,企業可以利用大數據抵御網絡攻擊,警察可以借助大數據來預防犯罪。
個人生活, 大數據還可以應用于個人生活,利用與每個人相關聯的“個人大數據”,分析個人生活行為習慣,為其提供更加周到的個性化服務。
大數據的價值,遠遠不止于此,大數據對各行各業的滲透,大大推動了社會生產和生活,未來必將產生重大而深遠的影響。
大數據使用的技術
說起大數據,大數據有三個層數據采集、存儲、計算三層。
第一個是數據采集層,以App、saas為代表的服務。
大數據基礎階段需掌握的技術有:Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis以及hadoopmapreduce hdfs yarn等。
第二個數據存儲層,比如云存儲,需掌握的技術有:hbase、hive、sqoop等。
比如:Hadoop作為一個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用于數據存儲。HBase,是一個分布式的、面向列的開源數據庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL數據庫。
HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。
第三個是數據計算應用層,以數據為基礎,為將來的移動社交、交通、教育,金融進行服務,涉及到大數據架構設計階段需掌握的技術有:Flume分布式、Zookeeper、Kafka等,以及大數據實時計算階段需掌握的技術有:Mahout、Spark、storm。
技術融合、數據合規、應用深化和資產管理是2019大數據發展的關鍵詞。
2019年以來,全球大數據技術、產業、應用等多方面的發展呈現了新的趨勢,也正在進入新的階段。當前,大數據技術呈現出六大融合趨勢:
(一)算力融合:多樣性算力提升整體效率
(二)流批融合:平衡計算性價比的最優解
(三)TA 融合:混合事務/分析支撐即時決策
(四)模塊融合:一站式數據能力復用平臺
(五)云數融合:云化趨勢降低技術使用門檻
(六)數智融合:數據與智能多方位深度整合
近兩年來,各國在數據合規性方面的重視程度越來越高,但數據合規的進程仍任重道遠。2019年5月25日,旨在保護歐盟公民的個人數據、對企業的數據處理提出了嚴格要求的《通用數據保護條例》。
歐盟EDPB的報告顯示,GDPR實施一年以來,歐盟當局收到了約145000份數據安全相關的投訴和問題舉報;共判處5500萬歐元行政罰款。蘋果、微軟、Twitter、WhatsApp、Instagram等企業也都遭到調查或處罰。GDPR的正式實施之后,帶來了全球隱私保護立法的熱潮,并成功提升了社會各領域對于數據保護的重視。
我國大數據的行業應用更加廣泛,正加速滲透到經濟社會的方方面面。這幾年,無論是從新增企業數量、融資規模還是應用熱度來說,與大數據結合緊密的行業逐步向工 業、政務、電信、交通、金融、醫療、教育等領域廣泛滲透,應用逐漸向生產、物流、供應鏈等核心業務延伸,涌現了一批大數據典型應用,企業應用大數據的能力逐漸增強。
最后,圍繞技術、應用、治理三個方面對大數據發展進行了展望:技術方面,我們仍然處在“數據大爆發”的初期,隨著5G、工業互聯網的深入發展,將帶來更大的“數據洪流”,這就為大數據的存儲、分析、管理帶來更大的挑戰,牽引大數據技術再上新的臺階。硬件與軟件的融合、數據與智能的融合將帶動大數據技術向異構多模、超大容量、超低時延等方向拓展。
應用方面,大數據行業應用正在從消費端向生產端延伸,從感知型應用向預測型、決策型應用發展。當前,互聯網行業已經全面進入“DT時代”。未來幾年,隨著各地政務大數據平臺和大型企業數據中臺的建成,將促進政務、民生與實體經濟領域的大數據應用再上新的臺階。
治理方面,隨著國家數據安全法律制度的不斷完善,各行業的數據治理也將深入推進。數據的采集、使用、共享等環節的亂象得到遏制,數據的安全管理成為各行各業自覺遵守的底線,數據流通與應用的合規性將大幅提升,健康、可持續的大數據發展環境逐步形成。