评论

【周周星分享(6.13第5名)】

【周周星分享(6.13第5名)】

非常荣幸能参与此次周周星分享,我当前的分数来自单流与双流模型的融合。

1.  单流网络的思路前几周周周星以及群里的各位大佬都分享的差不多了,我也没有什么能补充的。基础模型是qq浏览器模型,方法采用了预训练+ema+fgm+全量数据训练。

2.  双流网络则参考了ALBEF(https://arxiv.org/abs/2107.07651)的思路,原本的图像编码器替换成了随机初始化的Transformer,其他网络结构也有部分魔改,预训练任务照搬了原文中的MLM和ITC,预训练5个epoch后全量数据微调线上0.691左右,比单流结果略高。当然当前的预训练还存在一些bug没解决(预训练loss先降后升,loss升高也确实影响了微调性能),以及网络结构还有优化空间,双流网络的提升空间还是非常大的。

3.  一些tricks:尝试过自蒸馏(self-distillation),Deep Mutual Learning以及其他online distillation方法,均有一点提升但幅度不大,甚至无法区分提升来自于方法本身还是调参,遂放弃。

4.  现在看来单流与双流融合的提升是要大于多折融合或者其他同类模型融合方法的,还是希望大家把重心多放在单模成绩的提升,这不管是对模型融合还是之后的复赛都有帮助的。

最后一次编辑于  2022-06-13  
点赞 1
收藏
评论
登录 后发表内容