如何检测内容是否可以采集

{success} 检测是否可以采集是写采集规则的第一步


网站类型介绍

网站有两种类型

  • 静态渲染(即国内大多数网站都是静态,因为百度不收录动态网页,这种是可以采集的)
  • 动态渲染(即右键查看网页源代码。没有主体数据,详情数据是通过s异步加载出来,胖鼠采集目前不支持采集这种网站)

静态动态网页检测方法

右键->查看网页源代码 你想要的数据在源代码中可以搜索到,即可以采集。反之不可采集(数据必须在html标签中)

第三种网页类型

{info} 这个站点非上面的两种情况,鼠友一起来学习一下 https://tech.sina.com.cn/internet/

{info} 这样就(间接的)拿到了最新更新的详情页 Url

但是还有些问题。站点为了seo在这里放了好几百行的详情链接。
我们一次采集这么多会因为时间太长,导致程序超时错误。
所以我们用 Jquery lt(小于)语法,取到最新更新前十条即可

{info} 完成。快去试试吧,以上就是胖鼠采集如何检测内容是否可以采集的全部内容


{primary} 检测法不分国家,不分语言,不分国内外。