收藏
回答

各位大佬帮帮我?

数据集里的视频特征是转换成了Patch?,frame_mask又是啥?


回答关注问题邀请回答
收藏

1 个回答

  • Ting
    Ting
    2022-05-21

    视频帧特征是由 Swin-Transformer 模型提取的。每个视频帧会提取出一个768维的向量,每个视频最多32帧(1秒1帧,超出截断)

    baseline 代码中的 frame_mask 是用于指示哪些帧是可用的。因为模型要求输入为32帧,但是有些视频不足32帧。frame_mask 为 1 表示可用,为0表示不可用。

    2022-05-21
    有用
    回复
登录 后发表内容