2.23 晴
嗯,今天我哥哥结婚,吃得好饱,不过自己也被催婚了,所以我决定下次把电子秤带过去准备减肥了。
决策树ID3算法,通过计算各个属性的信息增益来确定划分的属性,是一种贪心算法,会尽可能多地生成枝叶,因此会导致过拟合;解决方案是通过剪枝技术来去除多余枝叶,剪枝又分预剪枝和后剪枝,都是通过比较枝叶合并前后决策树的泛化性能来决定是否需要剪枝。
分类回归树CART算法,通过计算基尼指数来确定数据集的划分属性,进而进行二叉树划分,再在划分后决策树的叶子节点上构建线性模型,是一个既可以用于分类又可以用于回归的算法。
连续值处理,将连续值进行排序,选择其中一点作为划分点从而计算其信息增益,最终得出其最大信息增益所对应的划分点,此方法被用作C4.5算法。
缺失值处理,通过计算不含缺失值版本的信息增益,然后乘以权重从而得到完全版本的信息增益。
多变量决策树,通过在坐标空间中寻找不同样本之间的分类边界来进行分类。