2019年上半年微信发布了基于小程序页面的搜索,为了让我们更好地发现及理解小程序的页面,结合过去一段时间来我们遇到的各种情况,我们强烈建议各位开发者花一些宝贵的时间认真阅读本文:)
爬虫访问小程序内页面时,会携带特定的 user-agent "mpcrawler" 及场景值:1129
1. 小程序里跳转的页面 (url) 可被直接打开。
小程序页面内的跳转url是我们爬虫发现页面的重要来源,且搜索引擎召回的结果页面 (url) 是必须能直接打开,不依赖上下文状态的。特别的:建议页面所需的参数都包含在url
2. 页面跳转优先采用navigator组件。
小程序提供了两种页面路由方式:
a.navigator 组件
b. 路由 API,包括 navigateTo / redirectTo / switchTab / navigateBack / reLaunch
建议使用 navigator 组件,若不得不使用API,可在爬虫访问时屏蔽针对点击设置的时间锁或变量锁。
3.清晰简洁的页面参数。
结构清晰、简洁、参数有含义的 querystring 对抓取以及后续的分析都有很大帮助,但是将 JSON 数据作为参数的方式是比较糟糕的实现。
4. 必要的时候才请求用户进行授权、登录、绑定手机号等。
建议在必须的时候才要求用户授权(比如阅读文章可以匿名,而发表评论需要留名)。
5. 我们不收录 web-view 中的任何内容。
我们暂时做不到这一点,长期来看,我们可能也做不到。
6. 利用 sitemap 配置引导爬虫抓取,同时屏蔽无搜索价值的路径。
https://developers.weixin.qq.com/miniprogram/dev/framework/sitemap.html
7. 设置一个清晰的标题和页面缩略图。
页面标题和缩略图对于我们理解页面和提高曝光转化有重要的作用。
通过wx.setNavigationBarTitle或 自定义转发内容onShareAppMessage对页面的标题和缩略图设置,另外也为 video、audio 组件补齐 poster /poster-for-crawler属性。
8. 使用页面路径推送能力
可极大丰富微信可以收录的内容,进而提高小程序内容的曝光机会。请参考: https://developers.weixin.qq.com/miniprogram/dev/api-backend/open-api/search/search.submitPages.html
最近我们的微信小程序来自蜘蛛(疑似)的抓取量急速上升(大约每天200-300次,3台服务器都抗不住了)。之前也就是一天几十万。为了防止系统崩溃,我们在小程序后台设置了一天50万的抓取量,但不生效。因此我们怀疑是否是真的小程序蜘蛛,在设置抓取量不生效的情况下,我们封了一部分IP段。
请问腾讯的同学,以下IP段是否有包含微信小程序的蜘蛛:
175.24.0.0/16
81.68.0.0/16
49.234.0.0/16
49.235.0.0/16
感谢腾讯同学帮助解答一下?如果这些IP是微信小程序的蜘蛛,我们不封这些IP段情况,微信小程序的蜘蛛抓取量能否控制平均一下(我们看到日志,高峰时每小时50-60万抓取量)?
蓝瘦啊, 现在小程序都做没导航条的, 有导航太老气了,你这 seo 建议不太行, 还不如加一些小程序属性的关键字
支持抓取通过接口渲染的页面吗?
如果用wx.navigateTo,可以通过wx.getCurrentPages()得到页面栈超过10级时用wx.directTo来跳转。
但是如果整个小程序都采用navigator组件做跳转功能。怎么办呢??????
请问这个小游戏适用吗 ?
请问下onShareAppMessage里的title用变量可以吗?还是说要用常量字符串
如果小程序启动后直接需要注册的话,怎么引导爬虫抓取页面?
沙发?