pig框架怎么樣?
Apache pig是對MapReduce的一種抽象。它是一個工具/平臺,用于分析代表數據流的更大數據集。Pig通常與 Hadoop一起使用 ; 我們可以使用Apache Pig在Hadoop中執行所有數據操作操作。
要編寫數據分析程序,Pig提供了一種稱為 Pig Latin 的高級語言。該語言提供了各種運營商使用哪些程序員可以開發自己的功能來讀取,寫入和處理數據。
要使用 Apache Pig 分析數據,程序員需要使用Pig Latin語言編寫腳本。所有這些腳本都在內部轉換為Map和Reduce任務。Apache Pig有一個稱為 Pig Engine 的組件,它接受Pig Latin腳本作為輸入并將這些腳本轉換為MapReduce作業。
為什么我們需要Apache Pig?通常不擅長Java的程序員通常用于與Hadoop一起工作,特別是在執行任何MapReduce任務時。Apache Pig對所有這些程序員來說都是一個福音。
使用 Pig Latin ,程序員可以輕松執行MapReduce任務,而無需在Java中輸入復雜代碼。
Apache Pig使用 多查詢方法 ,從而縮短代碼長度。例如,需要您在Java中輸入200行代碼(LoC)的操作可以通過在Apache Pig中輸入少于10個LoC來輕松完成。Apache Pig最終將開發時間縮短了近16倍。
Pig Latin是 SQL類語言 ,當熟悉SQL時很容易學習Apache Pig。
Apache Pig提供了許多內置運算符來支持數據操作,如連接,過濾器,排序等。此外,它還提供嵌套數據類型,如元組,地圖和MapReduce中缺失的映射。
pig的特點
Apache Pig具有以下功能 -
豐富的操作符 - 它提供了許多操作符來執行連接,排序,文件管理器等操作。易于編程 - Pig Latin與SQL類似,如果擅長SQL,編寫Pig腳本也很容易。優化機會 - Apache Pig中的任務自動優化其執行,因此程序員只需關注語言的語義。可擴展性 - 使用現有的運算符,用戶可以開發自己的函數來讀取,處理和寫入數據。UDF的 - Pig提供了 在其他編程語言(如Java)中創建 用戶定義函數的功能 ,并將它們調用或嵌入到Pig腳本中。處理各種數據 - Apache Pig分析結構化和非結構化的各種數據。 它將結果存儲在HDFS中。