大數(shù)據(jù)是目前互聯(lián)網(wǎng)及商務(wù)應(yīng)用最重要的組成部分。
分三部分:大數(shù)據(jù)的來(lái)源,大數(shù)據(jù)的特點(diǎn)及大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)來(lái)源
關(guān)于數(shù)據(jù)來(lái)源,互聯(lián)網(wǎng)及物聯(lián)網(wǎng)是產(chǎn)生并承載大數(shù)據(jù)的基地。互聯(lián)網(wǎng)公司是天生的大數(shù)據(jù)公司,在搜索、社交、媒體、交易等各自核心業(yè)務(wù)領(lǐng)域,積累并持續(xù)產(chǎn)生海量數(shù)據(jù)。如阿里,百度,騰訊等。物聯(lián)網(wǎng)設(shè)備每時(shí)每刻都在采集數(shù)據(jù),設(shè)備數(shù)量和數(shù)據(jù)量都與日俱增。這兩類數(shù)據(jù)資源都是大數(shù)據(jù)金礦,還有一些企業(yè),在業(yè)務(wù)中也積累了許多數(shù)據(jù),如房地產(chǎn)交易、大宗商品價(jià)格、特定群體消費(fèi)信息等。當(dāng)然還有另外一類是政府部門掌握的數(shù)據(jù)資源。
大數(shù)據(jù)主要特點(diǎn):
這是一個(gè)在討論大數(shù)據(jù)時(shí)時(shí)常被忽略的一個(gè)屬性,部分原因是這個(gè)屬性相對(duì)來(lái)說(shuō)比較新,盡管它與其他的屬性同樣重要。這是一個(gè)與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會(huì)被用于決策的數(shù)據(jù)(而這不同于與傳統(tǒng)的數(shù)據(jù)分析流程),精確性與信噪比(signal-to-noiseratio)有關(guān)。
例如,在大數(shù)據(jù)中發(fā)現(xiàn)哪些數(shù)據(jù)對(duì)商業(yè)是真正有效的,這在信息理論中是個(gè)十分重要的概念。由于并不是所有的數(shù)據(jù)源都具有相等的可靠性,在這個(gè)過(guò)程中,大數(shù)據(jù)的精確性會(huì)趨于變化,如何增加可用數(shù)據(jù)的精確性是大數(shù)據(jù)的主要挑戰(zhàn)。
大數(shù)據(jù)是在運(yùn)動(dòng)著的,通常處于很高的傳輸速度之下。它經(jīng)常被認(rèn)為是數(shù)據(jù)流,而數(shù)據(jù)流通常是很難被歸檔的(考慮到有限的網(wǎng)絡(luò)存儲(chǔ)空間,單單是高速就已經(jīng)是一個(gè)巨大的問(wèn)題)。這就是為什么只能收集到數(shù)據(jù)其中的某些部分。如果我們有能力收集數(shù)據(jù)的全部,長(zhǎng)時(shí)間存儲(chǔ)大量數(shù)據(jù)也會(huì)顯得非常昂貴,所以周期性的收集數(shù)據(jù)遺棄一部分?jǐn)?shù)據(jù)以節(jié)省空間,僅保留數(shù)據(jù)摘要(如平均值和方差)。
大數(shù)據(jù)由大量數(shù)據(jù)組成,從幾個(gè)TB到幾個(gè)ZB。這些數(shù)據(jù)可能會(huì)分布在許多地方,通常是在一些連入因特網(wǎng)的計(jì)算網(wǎng)絡(luò)中。
一般來(lái)說(shuō),凡是滿足大數(shù)據(jù)的幾個(gè)V的條件的數(shù)據(jù)都會(huì)因?yàn)樘蠖鵁o(wú)法被單獨(dú)的計(jì)算機(jī)處理。單單這一個(gè)問(wèn)題就需要一種不同的數(shù)據(jù)處理思路,這也使得并行計(jì)算技術(shù)(例如MapReduce)得以迅速崛起。
在過(guò)去,數(shù)據(jù)或多或少是同構(gòu)的,這種特點(diǎn)也使得它更易于管理。這種情況并不出現(xiàn)在大數(shù)據(jù)中,由于數(shù)據(jù)的來(lái)源各異,因此形式各異。這體現(xiàn)為各種不同的數(shù)據(jù)結(jié)構(gòu)類型,半結(jié)構(gòu)化以及完全非結(jié)構(gòu)化的數(shù)據(jù)類型。
結(jié)構(gòu)化數(shù)據(jù)多被發(fā)現(xiàn)在傳統(tǒng)數(shù)據(jù)庫(kù)中,數(shù)據(jù)的類型被預(yù)定義在定長(zhǎng)的列字段中。半結(jié)構(gòu)化數(shù)據(jù)有一些結(jié)構(gòu)特征,但不總是保持一致(舉例來(lái)說(shuō),看一看JSON文件),使得這種類型難以處理。更富于挑戰(zhàn)的是非結(jié)構(gòu)化數(shù)據(jù)(例如純文本文件)毫無(wú)結(jié)構(gòu)特征可言。在大數(shù)據(jù)中,更常見的是半結(jié)構(gòu)化數(shù)據(jù),而且這些數(shù)據(jù)源的數(shù)據(jù)格式還各不相同。
在過(guò)去的幾年里,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)成為了大數(shù)據(jù)的主體數(shù)據(jù)類型。
盡管有些網(wǎng)絡(luò)數(shù)據(jù)披著大數(shù)據(jù)的外衣,但并不是每一種數(shù)據(jù)融合都可以叫做大數(shù)據(jù)。注意,即使有些數(shù)據(jù)擁有這4種屬性中的一種或多種,也不能被歸類為大數(shù)據(jù),要完全擁有以上4種特性才能稱得上是大數(shù)據(jù)。
大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)主要有以下幾種較為常用的功能:
從這里你就知道為什么當(dāng)你在淘寶搜索過(guò)某一樣?xùn)|西后,近期電腦里的廣告都是與之相關(guān)的信息,或者是你在里打開過(guò)幾個(gè)“王者榮耀”視頻,后面他就會(huì)推送更多的這類視頻出現(xiàn)在你的手機(jī)上。
在不久的將來(lái),多智時(shí)代一定會(huì)徹底走入我們的生活,有興趣入行未來(lái)前沿產(chǎn)業(yè)的朋友,可以收藏多智時(shí)代,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí),讓我們一起攜手,引領(lǐng)人工智能的未來(lái)!