1.nn:目前还是处于复现初赛方案的阶段,没有增加新的东西,模型使用的是mmoe,整体看下来是差不多的,就是数据规模不一样了分布啥的都是一致的,初赛方案可以大胆在复赛使用,当然需要进行一些参数的调整比如mmoe里面的专家数等来适配大数据量的情况。
2.树模型:复赛的数据量增大,机器的内存也不足够,导致树模型很难复现初赛的方案。目前主要通过负采样,并且删除一些不必要的特征进行复现,虽然分数没有nn线上高,但是与nn的差异性来看比初赛更大了,在融合的时候会有收益。树模型主要还是在加载数据的时候,比较容易爆,个人从lgb转向了cbt,可能会没有lgb分数高,但是gpu支持更好,可以加速训练过程,而且加载内存的时候比lgb需要的内存更少,但是还是不能进行全量训练,所以复赛还是nn为主。
3.还想和大家分享一下值得的注意问题。第一是队伍合作的问题,hash一定要先和队友商量好以及共用数据的时候要统一标注好,比如是否加了初赛的数据,不然会浪费大量的时候对齐,这就没有必要了。第二是notebook的问题,同一台电脑重新打开notebook其实输出还是会继续输出的,但是另外一台电脑就看不到实时的输出了,但是可以通过刷新来看到更新的输出。这时候千万不要写代码,否则刷新也没有用。当然最好还是用log来输出到文件。
2