我用python+txt處理過(guò)1.7億條數(shù)據(jù),壓力不算特別大,可以接受。
有幾點(diǎn)要注意:
1、不要用python寫循環(huán),1.7億的循環(huán)跑到你電腦沒(méi)電。
2、多用pandas和numpy,用他們自帶的查找方法。
3、如果內(nèi)存不夠,pandas.readcsv時(shí)要用iterator,當(dāng)然這時(shí)分線程意義也不大了,因?yàn)槟愕钠款i是IO。
我用python+txt處理過(guò)1.7億條數(shù)據(jù),壓力不算特別大,可以接受。
有幾點(diǎn)要注意:
1、不要用python寫循環(huán),1.7億的循環(huán)跑到你電腦沒(méi)電。
2、多用pandas和numpy,用他們自帶的查找方法。
3、如果內(nèi)存不夠,pandas.readcsv時(shí)要用iterator,當(dāng)然這時(shí)分線程意義也不大了,因?yàn)槟愕钠款i是IO。