胖鼠采集 – 如何检测内容是否可以采集插图

胖鼠采集 – 如何检测内容是否可以采集

如何检测内容是否可以采集?

答:右键 -> 查看网页源代码 你想要的数据在源代码中可以搜索到,即可以采集。反之不可采集(数据必须在html标签中)

不分国家,不分语言,不分国内外。

网站有两种类型

1,静态渲染(即国内大多数网站都是静态,因为百度不收录动态网页,这种是可以采集的)

2,动态渲染(即右键查看网页源代码。没有主体内容,所有的列表数据,详情数据通过js异步加载出来,胖鼠采集目前不支持采集这种网站)

下面这个网址非上面的两种情况,鼠友一起来学习一下

https://tech.sina.com.cn/internet/

想要的是这里的信息流,有感觉是异步加载的,因为他有时间延迟。我们来看一下

胖鼠采集 – 如何检测内容是否可以采集插图
胖鼠采集 – 如何检测内容是否可以采集插图(1)
胖鼠采集 – 如何检测内容是否可以采集插图(2)
胖鼠采集 – 如何检测内容是否可以采集插图(3)
胖鼠采集 – 如何检测内容是否可以采集插图(4)

这样就(间接的)拿到了详情页的url。

这样还有有点问题。因为这个网站为了seo在这里放了好几百行的详情链接。我们一次采集这么多会因为时间超长导致程序奔溃。

所以我们用jquery lt(小于)语法

胖鼠采集 – 如何检测内容是否可以采集插图(5)

这样我们就得到了列表的前10条记录啦,因为最新更新的在前面。所以10条足矣。

编码问题

还有一些感觉规则写的正确,但是数据返回是空的,记得试试其他两种编码处理方式。

胖鼠采集 – 如何检测内容是否可以采集插图(6)

快去试试吧,以上就是胖鼠采集如何检测内容是否可以采集的全部内容。

发表评论

电子邮件地址不会被公开。 必填项已用*标注