评论

【周周星分享(6.6第2名)】

【周周星分享(6.6第2名)】

1. 建模上

单流模型(68+)

Interactive

(Embedding(TEXT), Embedding(VIDEO)) ---> Joint-Embedding

Encoder(Joint-Embedding)

CLS(Mean-Pooling)

优化思路:

a. Embedding层表征方式,VIDEO编码器可以用与文本共享的同空间emb,也可以用独立的emb,也可以用其他编码器等;目前线下来看预训练配合独立emb更好,仅微调同空间更好;

b. Embedding层融合方式,一般为Concat,可以考虑添加模态dropout,过多个线性层编码,SENet等

c. CLS层表征方式,如last4的mean-pool, cls_info, last_hidden_state的mean-pool, attention等;目前线下来看concat较好


双流模型(67+)

与单流模型的区别是模型交互位置的不同,单流模型在最顶层交互(Embedding层),而双流模型可以在Encoder,分类层交互;官方提供的baseline是在最末层做交互;可以考虑在Encoder层做cross-attention(LXMERT)

优化思路:

a. 加特征(TFIDF,NextVLAD等)

b. 交互策略(参考2021腾讯广告算法大赛答辩视频中倒数第二位选手的做法)

现在的分数是单流模型加权双流模型的结果(各自5fold)


2.预训练

目前用到了clip的思路,但看上去tricks与预训练有点冲突(两者叠加看不到收益),其他任务来看,mfm没有明显正收益,mlm和itm影响较大

点赞 0
收藏
评论
登录 后发表内容