在大數(shù)據(jù)時(shí)代,Hive成為了企業(yè)級(jí)SQL-on-Hadoop標(biāo)準(zhǔn),但很多企業(yè)又有一些舊的MySQL數(shù)據(jù),而且又不想丟失這些數(shù)據(jù),所以如何將這些數(shù)據(jù)遷移到Hive成為了一個(gè)重要的問(wèn)題。
首先,我們需要?jiǎng)?chuàng)建一個(gè)外部表用于導(dǎo)入MySQL數(shù)據(jù)。
CREATE EXTERNAL TABLE IF NOT EXISTS mysql_table_name ( id INT, name STRING, age INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE LOCATION '/path/to/mysql_table_name';
這段代碼中,我們創(chuàng)建了一個(gè)外部表mysql_table_name,這個(gè)表的字段和MySQL的表字段一致,使用ROW FORMAT DELIMITED指定數(shù)據(jù)的分隔符,F(xiàn)IELDS TERMINATED BY ','表示字段間用逗號(hào)分隔,LINES TERMINATED BY '\n'表示每行數(shù)據(jù)以換行符結(jié)尾,STORED AS TEXTFILE指定數(shù)據(jù)以文本文件的形式存儲(chǔ),LOCATION '/path/to/mysql_table_name'指定數(shù)據(jù)存儲(chǔ)的路徑。
接下來(lái),我們需要將MySQL的數(shù)據(jù)導(dǎo)入到這個(gè)外部表中。
LOAD DATA LOCAL INPATH '/path/to/mysql_table_name.txt' OVERWRITE INTO TABLE mysql_table_name;
這段代碼中,LOAD DATA LOCAL INPATH指定數(shù)據(jù)文件的本地路徑,OVERWRITE表示覆蓋掉表中的數(shù)據(jù),INTO TABLE mysql_table_name表示導(dǎo)入數(shù)據(jù)到mysql_table_name這個(gè)表中。
最后,我們需要將這個(gè)外部表的數(shù)據(jù)導(dǎo)入到Hive的表中。
INSERT OVERWRITE TABLE hive_table_name SELECT * FROM mysql_table_name;
這段代碼中,INSERT OVERWRITE TABLE hive_table_name表示將數(shù)據(jù)插入到hive_table_name這個(gè)表中并覆蓋掉原來(lái)的數(shù)據(jù),SELECT * FROM mysql_table_name表示從外部表mysql_table_name中選取所有的數(shù)據(jù)插入到hive_table_name中。
通過(guò)以上步驟,我們就可以把MySQL的數(shù)據(jù)遷移到Hive中了。