需要澄清兩點之后才可以比較全面的看這個問題:
1.百萬行級不算大數(shù)據(jù)量,以目前的互聯(lián)網(wǎng)應用來看,大數(shù)據(jù)量的起點是10億條以上。
2.
處理的具體含義,如果是數(shù)據(jù)載入和分發(fā),用python是很高效的;如果是求一些常用的統(tǒng)計量和求一些基本算法的結果,python也有現(xiàn)成的高效的
庫,C實現(xiàn)的和并行化的;如果是純粹自己寫的算法,沒有任何其他可借鑒的,什么庫也用不上,用純python寫是自討苦吃。
python的優(yōu)勢不在于運行效率,而在于開發(fā)效率和高可維護性。針對特定的問題挑選合適的工具,本身也是一項技術能力。