Hadoop分布式文件系統(tǒng)(HDFS)是Apache Hadoop項(xiàng)目的核心組件之一,它是一個(gè)分布式的文件存儲系統(tǒng),具有高容錯(cuò)性、高可擴(kuò)展性和高性能的特點(diǎn)。
代碼示例:
hdfs dfs -mkdir /data
hdfs dfs -put test.json /data/
JSON是一種輕量級的數(shù)據(jù)交換格式,也是一種數(shù)據(jù)格式,它使用易于讀寫的文本格式,具有層次結(jié)構(gòu),便于程序解析和生成。
代碼示例:
{ “name”: “John”, “age”: 30, “city”: “New York” }
Apache Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉庫工具,它提供了數(shù)據(jù)查詢和分析的能力,可以將數(shù)據(jù)存儲在HDFS上,也可以通過HiveQL查詢語言訪問和分析數(shù)據(jù)。
代碼示例:
CREATE TABLE users (name string, age int, address string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’;
LOAD DATA INPATH '/data/test.json' INTO TABLE users;
SELECT * FROM users WHERE age >20;
通過將HDFS上存儲的JSON數(shù)據(jù)加載到Hive表中,可以使用HiveQL查詢語言對數(shù)據(jù)進(jìn)行分析和過濾。