色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

mysql作為數(shù)據(jù)源可否直接用spark處理

錢艷冰2年前26瀏覽0評論
mysql作為數(shù)據(jù)源可否直接用spark處理?

謝邀,Spark通過Jdbc來查詢來自RDB的數(shù)據(jù)源。但是Spark對Jdbc的支持也是一個逐漸演變的過程,其中關鍵點在于版本1.3,也就是data frame的引入。在1.3以前,Spark通過Jdbc RDD來處理對對Jdbc的查詢。它實現(xiàn)了標準的RDD接口,比如支持partition和compute。但是對很多用戶來說,還是太復雜了。從1.3 起,可以直接用DF接口來做同樣的事情。比如以下代碼就可以完成對一個RDB表的查詢

可以看到,不管數(shù)據(jù)來自什么數(shù)據(jù)源(hive,parquet, 甚至NoSql),引入data frame以后,它的代碼是非常相似的,得到的結果都是dataframe,你盡可以把它們?nèi)嘣谝黄稹V劣赿ata frame內(nèi)部是如何支持多種數(shù)據(jù)源的,以及如何優(yōu)化,我再去看看源代碼。