本人工作崗位是大數(shù)據(jù)咨詢顧問,從事大數(shù)據(jù)行業(yè)多年,IT行業(yè)十年經(jīng)驗(yàn)。
大數(shù)據(jù)是一個(gè)統(tǒng)稱,是相對(duì)于小數(shù)據(jù)而說的。比如以前采用ORACLESQLMYSQL數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)基本是幾十G到幾百G,而且大多以結(jié)構(gòu)化的數(shù)據(jù)為主。但現(xiàn)在隨著互聯(lián)網(wǎng)的爆發(fā),數(shù)據(jù)量越來越大(從GB、TB、PB、ZB),類型越來越多(結(jié)構(gòu)化傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)、半結(jié)構(gòu)化網(wǎng)頁、文件、郵件,非結(jié)構(gòu)化的視頻、圖片、音頻),所以原來的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)無法滿足需求了,所以才有了大數(shù)據(jù)。
大數(shù)據(jù)幾個(gè)關(guān)鍵的技術(shù)如下:
1.存儲(chǔ)能力。大數(shù)據(jù)平臺(tái)可支持結(jié)構(gòu)化(常規(guī)數(shù)據(jù)庫(kù)存放的規(guī)范化數(shù)據(jù))、半結(jié)構(gòu)化(文檔、網(wǎng)頁、郵件)、非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)(視頻、圖片、音頻),并且可以支持分布式存儲(chǔ),可以很方便的擴(kuò)展,成本也很低。
2.計(jì)算能力。可以支持大批量離線計(jì)算(PB級(jí)、億級(jí)大量數(shù)據(jù))和實(shí)時(shí)計(jì)算(低延遲毫秒急出結(jié)果)。
3.AI能力。支持多種算法,機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等算法,可開發(fā)很多人工智能應(yīng)用。
- 4.為什么需要大數(shù)據(jù)平臺(tái)。因?yàn)閭鹘y(tǒng)的ORACLESQL數(shù)據(jù)庫(kù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理不好,并且不支持分布式存儲(chǔ)和計(jì)算,對(duì)單機(jī)的性能要求很高,導(dǎo)致成本很高,所以需要大數(shù)據(jù)平臺(tái)。