收藏
回答

微信爬虫mpcrawler的请求协议变更?

在7月2日发现,微信爬虫的请求头 Content-type 变成了 application/x-www-form-urlencoded; boundary=------------------------21cecef60adb4e47

之前应该一直是application/x-www-form-urlencoded;

导致服务端在获取参数的时候出错了,而返回了错误的结果,导致爬虫获取不到正确的内容了, 请问这个是什么原因导致的。

另外7月6日之后, 微信爬虫数量就越来越少了。

回答关注问题邀请回答
收藏

2 个回答

  • 燚
    2021-07-08

    具体是什么appid,什么页面,可以发我看一下

    2021-07-08
    有用
    回复 5
  • 浮云
    浮云
    2021-07-08

    appId: wx6e72282bcc43a3c5

    page: subPages/trade/supply-detail/index

    refer: https://servicewechat.com/wx6e72282bcc43a3c5/119/page-frame.html

    这个只是其中一个页面, 好像有很多页面都有类似的请求。 麻烦帮忙定位一下。

    谢谢

    2021-07-08
    有用
    回复 5
    • 燚
      2021-07-09
      具体是哪个请求收到这个请求头,这边看了一圈复现不了
      2021-07-09
      回复
    • 浮云
      浮云
      2021-07-09回复
      我们打印的日志的头信息是


      {"real_ip":"123.207.185.152","headers":"[Host:\"appapi.cnhnb.com\", X-Forwarded-For:\"123.207.185.152, 123.207.185.152\", Content-Length:\"16\", RemoteIp:\"123.207.185.152\", Accept:\"*/*\", Accept-Encoding:\"gzip, deflate\", Accept-Language:\"en-US\", Referer:\"https://servicewechat.com/wx6e72282bcc43a3c5/119/page-frame.html\", User-Agent:\"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1 MicroMessenger/6.5 mpcrawler\", hn-app-id:\"xapp\", ostype:\"xapp\", runtime-headers:\"content-type,osType,hn-app-id,access-token,X-CLIENT-ID,X-CLIENT-UA,X-CLIENT-TICKET,X-CLIENT-SID,X-CLIENT-APPID,X-B3-TRACEID,X-CLIENT-TIME,X-CLIENT-PAGE,X-HN-JOB,X-CLIENT-NONCE,X-CLIENT-SIGN\", x-b3-traceid:\"0KQPF866P9SZTR87\", x-client-appid:\"2\", x-client-id:\"f81fe86-1a95-50ad-8caa-d49d9af76\", x-client-page:\"subPages/trade/supply-detail/index\", x-client-sid:\"S_0KQPF866P9SZTR87\", x-wx-application-proto:\"0\", x-wx-cascade-timeout:\"10000\", Content-Type:\"application/x-www-form-urlencoded; boundary=------------------------735a09a0c4ef748e\", applicationName:\"pigsy-app\", x-real-ip:\"123.207.185.152\", agenttype:\"web_wechat\", client-type:\"wechat_xapp\"]","code":"510001","httpMethod":"POST","duration":"3","path":"/pisces/api/transform/supply/detail/desc","x-client-id":"f81fe86-1a95-50ad-8caa-d49d9af76","pigsy_profile":"app","http_status":"200 OK"}


      里面有一些字段是我们自己加的, 关键就是 'content-type'这个字段有点异常,导致解析参数出错了。
      2021-07-09
      回复
    • 燚
      2021-07-12
      这个是几号的日志,有最近一天的case吗?
      2021-07-12
      回复
    • 浮云
      浮云
      2021-07-12回复
      最近一天,7月11日, 好像没有出现了,主要是7月2日-7月5号比较多
      2021-07-12
      回复
    • 燚
      2021-07-13
      应该是2号那天变更期间不兼容导致的,后面看这几天的爬虫数据页面都是正常渲染的
      2021-07-13
      回复
登录 后发表内容