分箱是通过一些规则将数据更加离散化,一般用于连续型数据,在不同的分辨率下相同的数据会表现出不同的性质,降低连续型数据的分辨率相当于从整体上来看数据,可以得到一些好的性质。
1、一些算法本身更适合离散型数据,例如决策树ID3算法因为本身的缺陷在数据量不够时会倾向于选择取值多的特征,而将连续型数据离散化可以改善该情况;
2、分箱从整体看待数据,使得数据模糊化,体现出整体情况。这就使得异常值的负面影响可以被改善;模型面对一些轻微变化的新数据,可以预测时更加稳定;可以让线性模型在非线性数据上表现更好,因为降低了模型受原本非线性数据的干扰程度;也可以起到归一化那样的消除量纲的作用;
3、但是降低数据分辨率会带来数据的信息损失问题,有时会导致负面效果,因此我们使用分箱时应该选择合适的分箱方法。
1、一些算法本身更适合离散型数据,例如决策树ID3算法因为本身的缺陷在数据量不够时会倾向于选择取值多的特征,而将连续型数据离散化可以改善该情况;
2、分箱从整体看待数据,使得数据模糊化,体现出整体情况。这就使得异常值的负面影响可以被改善;模型面对一些轻微变化的新数据,可以预测时更加稳定;可以让线性模型在非线性数据上表现更好,因为降低了模型受原本非线性数据的干扰程度;也可以起到归一化那样的消除量纲的作用;
3、但是降低数据分辨率会带来数据的信息损失问题,有时会导致负面效果,因此我们使用分箱时应该选择合适的分箱方法。