评论

【周周星分享(5.30第2名)】

【周周星分享(5.30第2名)】

感谢前面周周星的方案方分享以及qq群里大佬们的讨论,给我们的模型方案有了很大的启发。我们的模型大概有几个上分点:

  1. 精心调一下郭大给的baseline,就能达到0.66的分数了,啥也不用加
  2. masked language modeling (MLM),video text matching (VTM)预训练方案都有用
  3. fgm pgd ema这些方案也都有用
  4. 以上都做完,精心调一调可以0.68+了
  5. 最后一个点靠核心科技

还有给大家几点建议:

  1. 本地构造合适的验证集很重要,可以检查下验证集是否存在某些类别只有一两个样本,若有的话,这些类别带来的分数抖动极大(极端情况比如某类别只有一个样本的话,猜错F1是0,猜对F1是100,对整体分数影响五个千),可能会掩盖方案本身带来的分数增益
  2. 初赛只是个门票,不建议卷模型融合,跑得累复现麻烦,主办方审核也麻烦,复赛卡一下运行时间模型大小就寄寄了


最后一次编辑于  2022-05-30  
点赞 0
收藏
评论

3 个评论

  • 胡晓辉
    胡晓辉
    2022-06-02

    您好,您实现的郭大baseline 文本embedding层只用了word embedding吗

    2022-06-02
    赞同
    回复 1
    • 曾兆阳
      曾兆阳
      2022-06-04
      直接用的BertModel,其中实现您可以自己看看源码
      2022-06-04
      回复
  • PeopleLost
    PeopleLost
    2022-05-31

    请问这个验证集怎么划分会比较好呢?很多类别总量也就可能20条,十折下不可避免的会导致验证集中该类别只有几条,难道手动增加该类别在验证集的数量?

    2022-05-31
    赞同
    回复 1
    • 曾兆阳
      曾兆阳
      2022-06-04
      或许可以小类直接去了呢
      2022-06-04
      回复
  • PaulPaulZhang
    PaulPaulZhang
    2022-05-30

    您好,郭大baseline的链接可以发一下吗?

    2022-05-30
    赞同
    回复 2
    • 曾兆阳
      曾兆阳
      2022-05-30
      没有链接,我自己写的
      2022-05-30
      回复
    • PaulPaulZhang
      PaulPaulZhang
      2022-06-01回复曾兆阳
      好的,谢谢回复
      2022-06-01
      回复
登录 后发表内容