这里简单介绍一下如何达到0.65分数的baseline:
框架如下图所示,首先将文本(title,asr,ocr)全部拼接起来,然后过一个embedding layer得到文本的embedding。然后视频特征经过一个线性层+激活函数,映射到和文本embedding一样的维度(768),得到视频的embedding。之后将文本和视频的embedding拼接起来,过一个BERT。这里要注意的是文本的embedding layer和BERT都是使用huggingface上已经预训练好的模型作为初始化,如hfl/chinese-roberta-wwm-ext。最后做一下mean pooling在经过一个MLP做200分类即可。剩下的就是调学习率和epoch了。
思考:
这是目前比较直接的一个方案,也没做其他框架的尝试。不过文本只是简单的暴力拼接,我相信应该还有更好的模型框架来处理不同的文本。
最后祝大家上分快乐!
不是很理解,文本和视频两个特征长度都是768,拼接起来都1536了,BERT最大长度不是512吗,怎么能运行的?有大佬解答下吗?纯新手
6666
666
666