工具方面,seaborn是matplotlib的擴展和二次封裝,個人認為日常數據分析matplotlib完夠用了。
一般臟數據分析可以分為以下幾個步驟:
一.數據讀取:根據數據源文件的文件類型,可以使用pandas的read_csv、read_table、read_excel、read_sql、read_json、read_html、DataFrame來讀取。
二.查看數據信息:主要使用describe、info這兩個方法,也可以直接用pandas的繪圖功能可視化顯示數據。
三.處理異常和缺失的數據:用到的方法主要有dropna、fillna,處理完異常和缺失數據后再可視化顯示出處理完的數據
四.如果是做機器學習或深度學習,還要再做一下歸一化處理。
五.數據處理完后再寫入到文件中,以備調用,我一般用to_csv方法來保存。
以下是我這自己處理的一段實例代碼: