數(shù)據(jù)挖掘過程中你使用最多的工具是什么?
當然是Python了,之所以Python能在機器學習方面笑傲江湖,全靠他哥倆,numpy和pandas,因為有了他倆,Python處理數(shù)組和矩陣才成為現(xiàn)實。
在數(shù)據(jù)挖掘過程中,數(shù)據(jù)探索和數(shù)據(jù)處理方面,主要是pandas,提供了類似行列式DataFrame的數(shù)據(jù)結(jié)構(gòu),在讀取外部數(shù)據(jù),變換數(shù)據(jù),處理空置和異常數(shù)據(jù)方面有極其強大的作用,而且使用起來非常簡單。是我日常分析數(shù)據(jù),處理數(shù)據(jù)常用的工具。
matplotlib庫是Python數(shù)據(jù)圖庫,提供了強大的圖表功能,在在平面和三維立體圖方面非常便捷,是數(shù)據(jù)可視化的機器。
當然,還有機器學習庫scikit-learn,里面包含了絕大部分算法,分類,回歸,降維,還提供了強大的模型優(yōu)化類和模型評估類,也有專門用作文本分析的算法和特征提取,特征選擇等。
當然,Python也有不足之處,就是Python不支持分布式計算,在當然大數(shù)據(jù)方面,這是致命的不足,不過分布式計算平臺spark,提供了全面的Python接口,可以方便的使用Python來操作spark來處理數(shù)據(jù)。