1.关于内存太小问题:目前NN大概有三大类解决方式,第一种是采取部分特征放入N中(或者调整embedding的大小),在我的baseline上(非开源)仅6id+videoplayseconds线上可以达到0.69+左右。第二种做法采用分批进入内存的方案,常见的方案如DataGenrator等。第三种做法是采用模型增量训练的做法。大家可以不断的尝试尝试。
2.关于树模型问题:在这个机器配置环境下,树模型确实很难跑的动。常见做法也就是采样、丢一部分特征、缩小embedding的纬度。
3.关于复赛上分方法:其实初赛周周星分享真的很棒,按照那个思路继续深挖,相信分数肯定不会差。其次,初赛成绩不佳的同学真不用太担心,因为复赛从某种程度上来说和初赛没什么关联(初赛有人分数很高比如树模型,但是复赛就很难跑的通),所以相信自己,加油就一定能拿TOP。
4.一些自己最近测试的感悟:(a)抖动问题:之前以为初赛数据少,加上uauc指标的问题,线上线下有几k的波动。但是复赛数据扩大十倍,居然还会有一定的波动。(b)差异性问题:离线看了自己模型跑的结果文件,corr相似度均比初赛低,融合收益空间估计很大。