謝邀,樸素貝葉斯算法是一種簡單而高效的分類算法,但屬性的條件獨立性假設并不符合客觀實際,特別是高維度數據的屬性之間往往存在相關關系,如何能在實現對數據降維的同時又提高樸素貝葉斯的分類性能是一個重要的研究問題。實際上,對于機器學習而言,泛化性能收到樣本數量和代表性的影響,如果特征維度高,則訓練樣本的數量必須比較大,關于樣本數量和維度有個VC維的理論約束。對于樸素貝葉斯而言,需要假設各維度相互獨立,維度高的一個可能問題就是維度之間的獨立性會變差,造成樸素貝葉斯的假設不成立,從而效果不好解決的辦法:一,從特征定義的物理意義出發,重新定義,減少特征之間的相關性;二,降維并進行特征挑選,但需要注意保持獨立性。三,增加具有代表性的訓練樣本。
上一篇比例極限怎么求?