置顶6.7周周星（第一名）分享精选热门

2021-06-07

5173浏览

1评论

6.7周周星（第一名）分享

本人目前使用的是Catboost单模型加自己的手工特征，特征量在300+，建议选手多看看数据，而不是一股脑将数据强行喂入模型。

具体可分享的如下：

1、目前的初赛数据我猜测是复赛的一个子集，但采样的时候导致有的feed序列出现不连续的情况，比如1、2、4、5天都有被用户浏览过，但date缺失了3，

如果选手是用深度模型的话，可能会受到影响，具体可自己实验分析;

2、很多选手做的手工特征加到模型后，验证集取得了较大的提升，线上却gg，这种大概率是穿越了，具体穿越的原因可自己进行分析，有的穿越还是不容易被发现的;

3、树模型的潜力可能没有深度模型大，目前树模型取得的优势很大程度上在于初赛的数据不够大，不过为了进入复赛，树模型还是有可研究的价值的。具体可做的特征不仅仅

是LabelEncoder，One-hot，还有TargetEncoding，TFIDF等。

树模型类似比赛比较好的开源代码我这边例举一些：

最后建议选手们多多试错，多加思考，多从业务上理解数据。

1 个评论

Y_Yi
2021-06-25
加粗
标红
插入代码
插入链接
插入图片
上传视频
请登录后发表内容
关闭
新增或编辑超链接
链接地址
确认取消
关闭
插入视频
视频链接
确认取消
发表
大佬，这里的TFIDF是指对ID做，还是指对tag和keyword做呀？
你好，麻烦通过点击下方“反馈信息”按钮，提供出现问题的。
待楼主反馈
2021-06-25
赞同
回复
关闭
请选择投诉理由
广告内容
违法违规
恶意灌水内容
其他