接口被爬虫1小时内累计调用200w次+
历程
从4月20日开始,起初小程序页面被微信爬虫访问时,会携带特定的 user-agent:mpcrawler 及场景值:1129
附部分IP地址与访问次数:
[代码]223.166.222.109 - 1,150[代码]
[代码]101.91.60.23 - 1,069[代码]
[代码]223.166.222.11 - 1,044[代码]
[代码]101.227.139.164 - 1,033[代码]
[代码]101.91.60.22 - 1,020[代码]
[代码]101.91.60.101 - 983[代码]
[代码]223.166.222.108 - 897[代码]
[代码]101.91.60.11 - 843[代码]
[代码]58.247.206.157 - 266[代码]
[代码]58.247.206.142 - 265[代码]
[代码]58.247.206.152 - 256[代码]
[代码]58.247.206.147 - 240[代码]
此后几天,断断续续有爬虫访问小程序页面
4月25日,收到【日志服务告警】- 短时间内大量415、400的状态码,这次开始很特殊——爬虫即没有user-agent也没有携带场景值
但是这次IP同之前的微信爬虫IP大多重叠,而且referer规则都是:https://servicewechat.com/${app_id}/0/page-frame.html,其中version=0(开发版、体验版以及审核版本),以为是机器人审核,但是也不应该持续触发大量非法请求并且没有携带user-agent
附4月25日 - Nginx日志:
[图片]
引用自小程序官方问答Q&A:
网络请求的 referer 是不可以设置的,格式固定为 [代码]https://servicewechat.com/{appid}/{version}/page-frame.html[代码],其中 [代码]{appid}[代码] 为小程序的 appid,[代码]{version}[代码] 为小程序的版本号,版本号为 0 表示为开发版、体验版以及审核版本,版本号为 devtools 表示为开发者工具,其余为正式版本。
就在今天(4月28日)中午将小程序【页面收录】功能设置为关闭,晚上19~20点18~19点,接口被爬虫1小时内累计调用200w次+
附4月28日晚上19~20点18~19点 - Nginx日志分析:
[图片]
疑问
101.91.60.*、223.166.222.*、58.247.206.*等IP是否为微信官方爬虫IP?
微信官方爬虫IP有哪些?
微信爬虫访问是否一定会携带user-agent:mpcrawler 及场景值:1129?