1. 建模上
单流模型(68+)
Interactive
(Embedding(TEXT), Embedding(VIDEO)) ---> Joint-Embedding
Encoder(Joint-Embedding)
CLS(Mean-Pooling)
优化思路:
a. Embedding层表征方式,VIDEO编码器可以用与文本共享的同空间emb,也可以用独立的emb,也可以用其他编码器等;目前线下来看预训练配合独立emb更好,仅微调同空间更好;
b. Embedding层融合方式,一般为Concat,可以考虑添加模态dropout,过多个线性层编码,SENet等
c. CLS层表征方式,如last4的mean-pool, cls_info, last_hidden_state的mean-pool, attention等;目前线下来看concat较好
双流模型(67+)
与单流模型的区别是模型交互位置的不同,单流模型在最顶层交互(Embedding层),而双流模型可以在Encoder,分类层交互;官方提供的baseline是在最末层做交互;可以考虑在Encoder层做cross-attention(LXMERT)
优化思路:
a. 加特征(TFIDF,NextVLAD等)
b. 交互策略(参考2021腾讯广告算法大赛答辩视频中倒数第二位选手的做法)
现在的分数是单流模型加权双流模型的结果(各自5fold)
2.预训练
目前用到了clip的思路,但看上去tricks与预训练有点冲突(两者叠加看不到收益),其他任务来看,mfm没有明显正收益,mlm和itm影响较大