大數據采集平臺有哪些?
針對這個問題,我們先來了解下大數據采集平臺提供的服務平臺流程包括:
1,首先平臺針對需求對數據進行采集。
2,平臺對采集的數據進行存儲。
3,再對數據進行分析處理。
4,最后對數據進行可視化展現,有報表,還有監控數據。
優秀的大數據平臺要能在大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智能,數據挖掘方面都能表現出優秀的性能。
現在來推薦幾個主流且優秀的大數據平臺:
1,Apache Flume
Apache旗下的一款開源、高可靠、高擴展、容易管理、支持客戶擴展的數據采集系統,它是一個分布式、可靠、可用的系統,是java運行時環境j用于從大量不同的源有效地收集、聚合、移動大量日志數據進行集中式數據存儲。
主要的功能表現在:
1.日志收集:日志系統中定制各類數據發送方,用于收集數據。
2.數據處理:提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力,提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系統,支持TCP和UDP等2種模式),exec(命令執行)等數據源上收集數據的能力。
2,Fluentd
Fluentd是一個用于統一日志層的開源數據收集器。Fluentd允許您統一數據收集和使用,以便更好地使用和理解數據。Fluentd是云端原生計算基金會(CNCF)的成員項目之一,遵循Apache 2 License協議 。FLuentd的擴展性非常好,客戶可以自己定制(Ruby)Input/Buffer/Output。
官網:
http://docs.fluentd.org/articles/quickstart
主要的功能表現在:
1,Input:負責接收數據或者主動抓取數據。支持syslog,http,file tail等。
2,Buffer:負責數據獲取的性能和可靠性,也有文件或內存等不同類型的Buffer可以配置。
3,Output:負責輸出數據到目的地例如文件,AWS S3或者其它的Fluentd。
3,Chukwa
Chukwa可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。Chukwa 本身也提供了很多內置的功能,幫助我們進行數據的收集和整理。
官網:
https://chukwa.apache.org/
1, 對應用的各個節點實時監控日志文件的變化,并將增量文件內容寫入 HDFS,同時還可以將數據去除重復,排序等。
2,監控來自 Socket 的數據,定時執行我們指定的命令獲取輸出數據。
優秀的平臺還有很多,筆記淺談為止,開發者根據官方提供的文檔進行解讀,才能深入了解,并可根據項目的特征與需求來為之選擇所需的平臺。