收藏
回答

接口被爬虫1小时内累计调用200w次+

历程


4月20日开始,起初小程序页面被微信爬虫访问时,会携带特定的 user-agent:mpcrawler 及场景值:1129


附部分IP地址与访问次数:


223.166.222.109 - 1,150
101.91.60.23 - 1,069
223.166.222.11 - 1,044
101.227.139.164 - 1,033
101.91.60.22 - 1,020
101.91.60.101 - 983
223.166.222.108 - 897
101.91.60.11 - 843
58.247.206.157 - 266
58.247.206.142 - 265
58.247.206.152 - 256
58.247.206.147 - 240


此后几天,断断续续有爬虫访问小程序页面


4月25日,收到【日志服务告警】- 短时间内大量415、400的状态码,这次开始很特殊——爬虫即没有user-agent也没有携带场景值

但是这次IP同之前的微信爬虫IP大多重叠,而且referer规则都是:https://servicewechat.com/${app_id}/0/page-frame.html,其中version=0(开发版、体验版以及审核版本),以为是机器人审核,但是也不应该持续触发大量非法请求并且没有携带user-agent


4月25日 - Nginx日志



引用自小程序官方问答Q&A:


网络请求的 referer 是不可以设置的,格式固定为 https://servicewechat.com/{appid}/{version}/page-frame.html,其中 {appid} 为小程序的 appid,{version} 为小程序的版本号,版本号为 0 表示为开发版、体验版以及审核版本,版本号为 devtools 表示为开发者工具,其余为正式版本。


就在今天(4月28日)中午小程序【页面收录】功能设置为关闭,晚上19~20点18~19点,接口被爬虫1小时内累计调用200w次+


4月28日晚上19~20点18~19点 - Nginx日志分析:



疑问


  • 101.91.60.*、223.166.222.*、58.247.206.*等IP是否为微信官方爬虫IP?

  • 微信官方爬虫IP有哪些?

  • 微信爬虫访问是否一定会携带user-agent:mpcrawler 及场景值:1129

最后一次编辑于  2019-04-30
回答关注问题邀请回答
收藏

6 个回答

  • 轻兔小程序服务商
    轻兔小程序服务商
    2019-04-30

    接口访问添加token信息

    ip次数限制

    2019-04-30
    有用 2
    回复 1
    • 用户
      用户
      2020-03-10
      你好,能具体讲一下思路吗?
      2020-03-10
      回复
  • PENL L
    PENL L
    2019-04-29

    我这边也被爬了。

    58.247.206.152、223.166.222.108...

    都是上海的ip

    2019-04-29
    有用 2
    回复 1
    • 锦涛💦
      锦涛💦
      2021-03-13
      我也是上海的ip
      2021-03-13
      回复
  • 吃土少年
    吃土少年
    2020-04-20

    我这边也是,这个有没有官方给一个肯定的回答 这些ip就是官方IP

    2020-04-20
    有用
    回复
  • 筷子哥
    筷子哥
    2020-02-02

    同被爬:101.91.60.11

    2020-02-02
    有用
    回复
  • 明晓
    明晓
    2019-11-06

    我们这个小程序也是被上海的ip,爬的一塌糊涂,一堆垃圾数据。mpcrawler ,

    2019-11-06
    有用
    回复
  • 辞欲巧
    辞欲巧
    2019-04-29

    就在今天(4月28日)中午小程序【页面收录】功能设置为关闭,晚上19~20点,接口被爬虫1小时内累计调用200w次+

    ----

    请问是哪个小程序?提供下appid。

    2019-04-29
    有用
    回复 3
    • 滴答
      滴答
      2019-04-30

      你好👋,是多个小程序累计调用的,列举其中几个的AppID:

      • wxb1f2fda74a6ddfb5

      • wx66718374e852a4c4

      • wx6cce66109dddb517

      • wx79002f33b75fb11c

      2019-04-30
      回复
    • 滴答
      滴答
      2019-04-30

      typo: 时间段"19~20点"改为"18~19点"

      2019-04-30
      回复
    • 2019-05-26

      你好,问一下,微信小程序前端代码完全可以被其他人采用其它技术copy,那采用云开发没有独立后端的小程序项目岂不是很容易被copy整个项目?

      2019-05-26
      回复
登录 后发表内容