sklearn中的決策樹是CART,我們都知道它是基于基尼指數的二叉樹。那么對于一個屬性,僅僅會選擇一個值對該屬性劃分成兩部分。如果有一個離散特征的取值有1000個,比如商品的品牌,那么如果直接按順序從0到999編號,是否會出問題?畢竟CART會從0-999中選一個編號進行劃分,但是這些編號的順序并沒有意義,這個劃分顯然也不科學。此時是否應該用獨熱編碼?
網站導航
- zblogPHP模板zbpkf
- zblog免費模板zblogfree
- zblog模板學習zblogxuexi
- zblogPHP仿站zbpfang