本人目前使用的是Catboost单模型加自己的手工特征,特征量在300+,建议选手多看看数据,而不是一股脑将数据强行喂入模型。
具体可分享的如下:
1、目前的初赛数据我猜测是复赛的一个子集,但采样的时候导致有的feed序列出现不连续的情况,比如1、2、4、5天都有被用户浏览过,但date缺失了3,
如果选手是用深度模型的话,可能会受到影响,具体可自己实验分析;
2、很多选手做的手工特征加到模型后,验证集取得了较大的提升,线上却gg,这种大概率是穿越了,具体穿越的原因可自己进行分析,有的穿越还是不容易被发现的;
3、树模型的潜力可能没有深度模型大,目前树模型取得的优势很大程度上在于初赛的数据不够大,不过为了进入复赛,树模型还是有可研究的价值的。具体可做的特征不仅仅
是LabelEncoder,One-hot,还有TargetEncoding,TFIDF等。
树模型类似比赛比较好的开源代码我这边例举一些:
- https://github.com/plantsgo/ijcai-2018
- https://github.com/YouChouNoBB/2018-tencent-ad-competition-baseline
- https://github.com/digix2020/digix2020_ctr_rank1
最后建议选手们多多试错,多加思考,多从业务上理解数据。
大佬,这里的TFIDF是指对ID做,还是指对tag和keyword做呀?