我们这边统计过,测试集中的userid都是在训练集user_action.csv中有行为数据的。你这边是不是搞错了?可以把你统计的方法/代码贴出来,我们看看。
测试集中出现的用户为什么大部分都没有在训练集中有行为数据?交流区的原问题以及回答如下: 6. 冷启动用户占比多少? 赛题为了突出基于用户行为建模去预测互动目标,所以所有测试集出现的用户均在训练数据集上有行为数据,区别在于训练数据集中用户的活跃程度有所不同。 但是现在发现,测试集中出现的userId远超训练集中的userId的范围,即大部分用户都没有出现在训练集中,这是否与这个回答相悖?
2021-06-07问题1:对于有停留时长或其他互动行为但没有播放时长的情况,有多种可能性。比如,可能是因为用户网络问题导致没有视频播放,或者用户刷到某个视频后快速点赞后划到下一个视频。 问题2:数据集中视频首次出现时是采样时的首次出现,实际场景中可能已出现多次。
有关数据的两个问题?一、 有些用户的行为中,有停留时长,无播放时长,但是有点赞行为 这是因为什么原因啊 测试集中有没有这样的数据 二、 首次出现的视频,点赞、点头像、转发这三种行为都可以存在,但是因为没有过评论,因此不可能出现查看评论的行为 数据集中视频首次出现时是现实场景的首次出现,还是采样时首次出现的呢
2021-06-04词粒度和字粒度不是同一个词表。
词表是否共用?请问ocr,description,asr(词粒度和字力度)是共用一个词表吗
2021-06-04这里说的“过滤掉测试集中全是正样本或全是负样本的用户后剩下的用户”是针对每个预测行为目标而言的。即每个目标的uAUC计算需要过滤掉测试集中该目标全0或全1的用户。初赛只需要预测4个目标,复赛是7个。
uAUC的含义?官方文档中说uAUC中的n是过滤掉测试集中全是正样本或全是负样本的用户后剩下的用户,这里的全是正样本或负样本用户是指那些标签全为0或全为1的用户吗,并且在初赛阶段是只对应于初赛阶段的四个标签吗
2021-06-04问题1:是同一个 问题2:是同一个 问题3: 不是同一个
关于tag/keyword脱敏词表?manual_keyword和machine_keyword是否是同一个脱敏词表?manual_tag和machine_tag是否是同一个脱敏词?tag和keyword是否是同一个脱敏词表?
2021-06-01是的,play字段就是视频播放的时长。播放时间短可能是当前视频刚播放的时候用户很快滑到下一个视频了。建议在微信视频号里实际体验一下。
视频号时长问题?为什么user_action文件夹里面的视频号视频播放时长存在500ms这种情况呢?这就是真实时长?
2021-06-01训练集中的用户行为表中每个用户对应的数据已按照时间戳顺序由小到大排列,数据中不提供时间戳字段。测试集中的数据是乱序的。
请问测试集中的数据是按时间戳顺序排列的吗?请问下test_a.csv中的数据是按第15天每个用户发生行为的时间排列的吗?
2021-05-28