评论

【周周星分享(5.23第1名)】

【周周星分享(5.23第1名)】

这里简单介绍一下如何达到0.65分数的baseline:

框架如下图所示,首先将文本(title,asr,ocr)全部拼接起来,然后过一个embedding layer得到文本的embedding。然后视频特征经过一个线性层+激活函数,映射到和文本embedding一样的维度(768),得到视频的embedding。之后将文本和视频的embedding拼接起来,过一个BERT。这里要注意的是文本的embedding layer和BERT都是使用huggingface上已经预训练好的模型作为初始化,如hfl/chinese-roberta-wwm-ext。最后做一下mean pooling在经过一个MLP做200分类即可。剩下的就是调学习率和epoch了。


思考:

这是目前比较直接的一个方案,也没做其他框架的尝试。不过文本只是简单的暴力拼接,我相信应该还有更好的模型框架来处理不同的文本。

最后祝大家上分快乐!

最后一次编辑于  2022-05-23  
点赞 4
收藏
评论

4 个评论

  • 想想这道菜怎么做
    想想这道菜怎么做
    2022-05-26

    不是很理解,文本和视频两个特征长度都是768,拼接起来都1536了,BERT最大长度不是512吗,怎么能运行的?有大佬解答下吗?纯新手

    2022-05-26
    赞同
    回复
  • 86-エイティシックス
    86-エイティシックス
    2022-05-24

    6666


    2022-05-24
    赞同
    回复
  • Frank
    Frank
    2022-05-23

    666

    2022-05-23
    赞同
    回复
  • 饶峰云
    饶峰云
    2022-05-23

    666

    2022-05-23
    赞同
    回复
登录 后发表内容