五分鐘看懂大數(shù)據(jù)技術(shù)?
大數(shù)據(jù)技術(shù)涉及:數(shù)據(jù)的采集、預(yù)處理、和分布式存儲、以及數(shù)據(jù)倉庫、機器學(xué)習(xí)、并行計算和可視化等方面。
對于大數(shù)據(jù)技術(shù),應(yīng)用廣泛的是以hadoop和spark為核心的生態(tài)系統(tǒng)。hadoop提供一個穩(wěn)定的共享存儲和分析系統(tǒng),存儲由hdfs實現(xiàn),分析由mapreduce實現(xiàn),
1、hdfs:Hadoop分布式文件系統(tǒng),運行與大型商用機集群
hdfs是gfs的開源實現(xiàn),提供了在廉價服務(wù)器集群中進行大規(guī)模分布式文件存儲的能力。
2、hbase:分布式的列存儲數(shù)據(jù)庫。hbase將hdfs作為底層存儲,同時支持mapreduce的批量計算和點查詢(隨機讀取)
hbase是一個建立在hdfs之上,面向列的nosql數(shù)據(jù)庫。它可用于快速讀寫大量數(shù)據(jù),是一個高可靠、高并發(fā)讀寫、高性能、面向列、可伸縮和易構(gòu)建的分布式存儲系統(tǒng)。hbase具有海量數(shù)據(jù)存儲、快速隨機訪問和大量寫操作等特點。
在kudu出現(xiàn)之前,hadoop生態(tài)環(huán)境的存儲主要依賴hdfs和hbase。在追求高吞吐、批處理的場景中,使用hdfs,在追求低延時且隨機讀取的場景中,使用hbase,而kudu正好能兼容這兩者。
3、批處理計算的基石:mapreduce
批處理計算主要解決大規(guī)模數(shù)據(jù)的批量處理問題,是日常數(shù)據(jù)分析中常見的一類數(shù)據(jù)處理需求。業(yè)界常用的大數(shù)據(jù)批處理框架有mapreduce\spark\tez\pig等。其中mapdeduce是比較有影響力和代表性的大數(shù)據(jù)批處理計算框架。它可以并發(fā)執(zhí)行大規(guī)模數(shù)據(jù)處理任務(wù),即用于大規(guī)模數(shù)據(jù)集(大于1tb)的并行計算。mapreduce的核心思想:將一個大數(shù)據(jù)集拆分成多個小數(shù)據(jù)集,然后在多臺機器上并行處理。
4、hive:分布式數(shù)據(jù)倉庫,管理hdfs中存儲的數(shù)據(jù),并提供基于sql的查詢語言用于查詢數(shù)據(jù)