很抱歉较早的做了集成,主要想看看基础vlbert集成的上线。
这个结果是3个不同vlbert large集成(backbone, pooling)的结果,训练采用80%数据,也就是提交了3个不同模型(5折中的单折)平均的结果。
没有对数据做细致处理,采用比较基本的vision+title+asr+ocr拼接的输入,在预训练方面,完整复现(白嫖)了去年qq浏览器比赛第一名一起去吃吉野家的方案。
实验证明该方案的预训练对本次比赛依旧有效,有较大提升,单模单折相同情况下提升17k。另外提升较大的细节是对抗训练提升10-15k单模单折。
目前还没有做swa因为提交了集成模型预估swa对集成的影响不会太大。
建议大家仔细分析数据,文本的处理应该是关键,另外就是更好的预训练,建议仔细阅读去年qq浏览器比赛第一名和第二名的方案。去年比赛的第二名郭大的预训练更加全面细致也值得进一步学习实验。
而去年第一名无私开源了训练代码,帮助非常巨大,再次表示感谢。希望大家能深挖数据取得更好的成绩。