Hive 是一種基于 Hadoop 的數(shù)據(jù)倉庫工具,可以處理大規(guī)模分布式數(shù)據(jù)。其中,Hive 支持多種文件格式,包括 JSON 格式。
JSON(JavaScript 對象表示法)是一種輕量級的數(shù)據(jù)交換格式,易于讀寫和解析。在 Hive 中,JSON 文件可以使用 SerDe(序列化/反序列化器)處理。SerDe 負(fù)責(zé)將數(shù)據(jù)序列化為文件格式,并將其反序列化為 Hive 中的表格。
以下是一個示例 JSON 文件:
{ "name": "John", "age": 30, "city": "New York" }
若要將 JSON 文件加載到 Hive 表格中,請執(zhí)行以下步驟:
- 創(chuàng)建一個 Hive 表格,并使用 SerDe 套件 "org.apache.hive.hcatalog.data.JsonSerDe"。
- 加載 JSON 文件。
- 查詢 Hive 表格。
CREATE TABLE example ( name string, age int, city string ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';
LOAD DATA INPATH '/path/to/example.json' INTO TABLE example;
SELECT * FROM example;