#### nn模型:
1、目前nn使用的是开源的baselline:mmoe模型。训练策略:线下使用前十三天训练,第十四天作为验证,线上利用前十四天数据作为训练。一般线上比线下高0.002~0.005。
2、模型的输入主要包括五个id、videoplayseconds、利用PCA对feed_embedding降维的64维向量,构造序列训练的向量等、以及tag作为输入,tag处理方式截取前n个tag不足补0,当作文本输入,经过Embedding层后与id类特征的Embedding拼接。
3、由于tensorflow不太稳定,训练三次取平均得到现在的成绩。也尝试过online和offline两次的预测结果加权平均,提升没有三次online预测结果取平均好。
4、目前在尝试前面周周星分享的多折策略,目前使用全量数据5折,线下是有一些提升,测试集由于时间原因还未提交。
#### 树模型:
1、对于树模型来说,用到的还是几个常规特征加embedding,比如用户前七天的平均点击量等统计特征。构造序列时我是使用了userid与所有广告侧id的交互。特征中文本和ocr等我目前试没什么效果,tag,keyword和feed_emb总共大概有一个百分点的提升, tag和keyword的用法我是滑窗和直接暴力拼接。
2、树模型的多折策略我是采用时间均匀划分,将负样本加入划分数据,每次选择划分下来的验证集加入训练数据中,与正样本拼接起来构成最后的训练数据,多次后所有的负样本都参与了训练。
目前分数是nn和树模型融合的分数。