江离数据挖掘俱乐部吧 关注:120贴子:1,157
  • 33回复贴,共1

[经验分享]三一逾期竞赛A榜王者级选手B榜翻车经验分享

只看楼主收藏回复

近期,国之重器三一重工举办了2场数据挖掘竞赛,逾期风险预测以及挖掘机工作模式识别,每场八个奖金位,每场奖金19.43万元 RMB。
由于本台全部选手(仅1人)均为资深机械迷,因此我们也派出了本台最强战力,菜鸡选手叶同学火速前往参赛。
经过深思熟虑,叶同学最终选择了自己比较有把握的赛题一:逾期风险预测进行参赛(这个菜鸡一开始以为挖掘机是非结构化比赛,直接盲选了风险预测)。
目前逾期风险预测初赛已经结束,本台也已得到菜鸡叶同学的捷报,菜鸡叶同学最终在这场比赛中取得了A榜第2,B榜第54的好成绩,让我们恭喜叶同学,并邀请叶同学分享一下自己的参赛经验,让我们有请叶同学(台下爆发出了雷鸣般的掌声)。


IP属地:广东1楼2021-06-30 20:08回复
    大家好,我是菜鸡叶同学


    IP属地:广东2楼2021-06-30 20:09
    收起回复
      这场比赛5.28日正式开榜。
      由于这是一场风控题型,而风控数据往往由于前端策略变动,导致不同时间段数据分布差异较大。因此,为提高线上线下的一致性,从一开始我就确定了使用和测试集一样的4月样本作为线下验证集的思路。
      该思路在整个A榜期间都为我带来了惊人的线上线下一致性(即便几乎所有的同学都不相信)。


      IP属地:广东3楼2021-06-30 20:17
      回复
        5.28是开赛第一天,
        第1次提交:
        仅使用基础变量建模发现线下有用的变量为逾期预警及期数,因此第一次提交仅添加 剩余期数,截止样本时间点累计逾期预警次数之类的简单衍生,共计8个变量,以4月前全量样本进行单模型训练(没有K折,最终提交的模型也没有添加4月样本),线下F1 0.5268,线上F1 0.5,第一次提交便直接登顶。
        第2,3次提交:
        对第一次的模型变量进行简单分析便很容易发现模型最强变量还是逾期预警相关的变量,其他变量用处相对较小,因此提升思路为进一步开发拓展该变量的强度,进一步做了尝试了若干种衍生(主要是累加统计相关),建模和验证方法不变,剔除线下无效的方案后:
        第2次提交时线下F1 0.5348,线上 F1 0.53。
        第3次提交时线下F1 0.5571,线上 F1 0.56。
        三次提交之后我便非常感慨,这么小的数据量还是风控题,线上线下竟如此一致,不禁在群里惊呼,线上的测试集不会和线下我的验证集完全一样吧!


        提交记录如下:


        IP属地:广东5楼2021-06-30 20:42
        回复
          开赛第2天,本日没有任何操作,respect!


          IP属地:广东6楼2021-06-30 20:44
          回复
            再次热烈掌声


            IP属地:上海来自Android客户端7楼2021-06-30 20:51
            回复
              2021-05-30为开赛第3天,
              由于风控题跨时间样本分布通常很大,因此植物男神的嫁接学习映入眼帘,
              第4次提交便以0.56的12个模型变量作为变量,以2018年样本进行建模(除时间筛选外,还剔除了2019年及之后出现过的id),对0.19年样本进行预测,得到分数pred0,再使用2019年1-3月样本进行建模(变量为0.56的12个变量+pred0), 线下4月F1 0.5779,线上F1为0.59,此时已和榜单第二拉开较大差距,并持续了很多天;


              IP属地:广东8楼2021-06-30 20:51
              收起回复
                此处应有掌声


                IP属地:上海来自Android客户端9楼2021-06-30 20:58
                回复
                  之后的所有提交几乎没有过太多线上操作(大量测试线下都是掉分的,并未提交,线下暴涨分数的经纬度轨迹表线上直接从0.6左右掉到0.4左右,由于本题看不到测试集数据,猜测可能是线上轨迹数据不一致,便不再用了);
                  由于我前期仅使用到4月样本进行建模,之后我将4月样本与1-3月纳入一起建模,并采用了k折建模,分数便直接到达0.6,稍微调整阈值便到达0.61(0.6和0.61时,整个模型框架和思路与0.59完全一致,2018年嫁接出pred0+12个变量,不过此时如果看k折验证集结果,F1到达0.62+);
                  以上操作便是我整个赛段的所有操作,在整个A榜期间[20210528,20210630]一直是榜首,仅30号下午被人反超;


                  IP属地:广东10楼2021-06-30 20:59
                  收起回复
                    鉴于我的所有操作都体现出了线上线下惊人的一致,且我0.61的分数和第4次提交框架变量几乎一致,因此我认为我的B榜必不可能翻车,我也将id改为B榜从不翻车。


                    IP属地:广东11楼2021-06-30 21:02
                    收起回复
                      最后请大家欣赏b榜单我的位置:

                      值得注意的是,a榜中分数紧贴我的两位同学,Louis,xiaobenla ,b榜和我位置也差不多,体现出了非常一致的掉分比率。
                      由于本人非常确信,我不认识这两位同学,且我并未在比赛过程中透露过我的模型思路,最终我们b榜掉分却如此一致,与随机掉分的假设不符,因此我大胆猜测b榜可能与a榜分布不同,而我们可能都存在某种一样的处理。
                      胡乱猜测如下:
                      1. 在处理基础类别变量代理商的时候我使用了训练集的频率编码,并将统计结果map到了测试集,而测试集ab榜中b榜代理商可能与a榜和测试集不同;
                      2. 可能我们都使用了嫁接,而这题ab榜不是随机采样,嫁接刚好拟合了a榜的客群;
                      如果有其他同学有相关信息也欢迎补充讨论


                      IP属地:广东12楼2021-06-30 21:09
                      收起回复
                        虽然在本次比赛中菜鸡叶同学翻车严重,但是叶同学相信,在下一场比赛中我必不可能翻车!


                        IP属地:广东14楼2021-06-30 21:11
                        收起回复
                          总结:
                          1. 提交次数少不一定不会过拟合榜单;
                          2. 数据量较少的题一般人把握不住的;
                          3. 下次我必不可能翻车;


                          IP属地:广东15楼2021-06-30 21:47
                          收起回复
                            三一赛后传1:
                            有消息称,拥有三百年血海深仇的 赛圈二次猿桑老师 与 赛圈什么都能把握的把握之神黄主任同时参加了三一赛事的另一赛道-挖掘机工作模式识别,两位a榜成绩分别15名和37名,两位b榜成绩分别23名和49名,两位均略有翻车,但明显桑老师翻的更多一点。据悉桑老师与黄主任此前已有过多次交手,看来交战记录中黄主任又胜了一场啊,知道双方总对战战绩的知情人,欢迎在评论打出对战总比分





                            IP属地:广东16楼2021-06-30 22:48
                            收起回复
                              三一赛后传2:
                              三一逾期赛事中,桑老师曾一度号称3天就能吊打菜鸡叶同学,我们来看看桑老师的ab榜成绩吧:
                              桑老师a榜成绩0.54,位列24名,b榜成绩0.49,位列37名,虽然桑老师也出现了明显的翻车,但是桑老师果然吊打了b榜54名的菜鸡叶同学,桑老师太强了,桑老师yyds,今后的日子里,叶同学决定要多向桑老师学习,争取下次比赛能达到跟桑老师一样的成就。



                              IP属地:广东17楼2021-06-30 22:54
                              收起回复