一种新科学吧 关注:121贴子:509
  • 1回复贴,共1

分箱操作的介绍

只看楼主收藏回复

分箱是通过一些规则将数据更加离散化,一般用于连续型数据,在不同的分辨率下相同的数据会表现出不同的性质,降低连续型数据的分辨率相当于从整体上来看数据,可以得到一些好的性质。
1、一些算法本身更适合离散型数据,例如决策树ID3算法因为本身的缺陷在数据量不够时会倾向于选择取值多的特征,而将连续型数据离散化可以改善该情况;
2、分箱从整体看待数据,使得数据模糊化,体现出整体情况。这就使得异常值的负面影响可以被改善;模型面对一些轻微变化的新数据,可以预测时更加稳定;可以让线性模型在非线性数据上表现更好,因为降低了模型受原本非线性数据的干扰程度;也可以起到归一化那样的消除量纲的作用;
3、但是降低数据分辨率会带来数据的信息损失问题,有时会导致负面效果,因此我们使用分箱时应该选择合适的分箱方法。


IP属地:江苏1楼2025-01-15 14:23回复
    可以根据已有业务规则进行分箱,这是根据大量实践后总结的经验,效果是最好的,但有时并没有这些规则,因此就需要用到一些通用的分箱方法:
    1、等宽分箱和等频分箱虽然简单,但是前者会在一定程度上受异常值影响,后者会在一定程度上忽视异常值的一些信息,例如公司客户订单大多是几十万、几百万,可是有个贵客订单是亿级别,使用等宽分箱可能会让处于大多数的普通客户得不到足够重视,使用等频分箱可能会让贵客得不到足够重视;
    2、聚类算法分箱,在进行分箱时可以更加合理,能够实现普通客户的分箱,也能把普通客户与贵宾分开;
    3、还有一些别的分箱方法大家可以自行去了解。
    需要注意的是:一般来讲分箱后原数据是要保留的,这可以增加特征数,使得模型从不同角度去学习;分箱后每一箱的样本数要较多,因为要从整体上来看数据,样本数少了就不能较好的反应整体情况


    IP属地:江苏2楼2025-01-15 14:42
    回复