小程序
小游戏
企业微信
微信支付
扫描小程序码分享
数据集里的视频特征是转换成了Patch?,frame_mask又是啥?
1 个回答
加粗
标红
插入代码
插入链接
插入图片
上传视频
视频帧特征是由 Swin-Transformer 模型提取的。每个视频帧会提取出一个768维的向量,每个视频最多32帧(1秒1帧,超出截断)
baseline 代码中的 frame_mask 是用于指示哪些帧是可用的。因为模型要求输入为32帧,但是有些视频不足32帧。frame_mask 为 1 表示可用,为0表示不可用。
你好,麻烦通过点击下方“反馈信息”按钮,提供出现问题的。
关注后,可在微信内接收相应的重要提醒。
请使用微信扫描二维码关注 “微信开放社区” 公众号
视频帧特征是由 Swin-Transformer 模型提取的。每个视频帧会提取出一个768维的向量,每个视频最多32帧(1秒1帧,超出截断)
baseline 代码中的 frame_mask 是用于指示哪些帧是可用的。因为模型要求输入为32帧,但是有些视频不足32帧。frame_mask 为 1 表示可用,为0表示不可用。