决策树基础决策树自上而下,树形分类的算法;有监督的算法学习过程 特征选择 决策树生成 决策树剪枝 熵 随机变量的不确定程度 $ H(x) = -\sum_{i=0}^n pi * log(pi) $ 熵越大不确定性就越大 ID3 算法步骤 计算数据集D的熵 计算某个特征A对于数据集D的条件熵H(D|A) 计算信息增益g(D,A) = H(D) - H(D|A)局限性 只能处理离散型变量,无法处理连续性变量 对样本缺失值比较敏感 每次分裂亲相遇取值多的特征,发哦之泛化性能较差 决策树的剪枝 提高决策树的泛化能生长力剪枝方法预剪枝树节点分裂之前,先计算划分是否可以提升模型的泛化能力 三种情况 当树达到一定的深度时,停止树的生长 到达当前节点的样本数量小于某个阈值时,停止生长 计算每次分裂对测试集准确率的提升,小于某个阈值时不再生长后剪枝完全生长成的决策树,然后自底向上进行减枝 原则 测试集上准确率的提升 文章作者: Forward文章链接: https://chenquan9807.github.io/2020/11/06/tree/版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Forward!机器学习决策树上一篇吴恩达机器学习第一周作业下一篇logisticRegression 相关推荐 2021-03-19决策树基本原理 2021-05-29Meanshift 2020-11-08吴恩达机器学习第一周作业 2021-03-19pca