胖鼠采集,新建采集规则使用方法

简单的采集规则让不懂代码的同学

通过简单学习掌握爬虫技巧是胖鼠采集的核心

下面带领大家来创建一个采集规则。

核心五部曲: 列表采集规则核心只需要填写这五个空。



  • 采集地址: 大家采集目标页面的地址
  • 采集范围: 你要采集目标页面的哪一块数据
  • 采集规则: Jquery选择器,选择页面上的区域
  • 详情页采集范围: 同上
  • 详情页采集规则: 同上

来看这是一个例子

先科普一下, 在 html 中

class 对应 Jquery 的 .

id 对应 Jquery 的 #

我下面的例子中每个选择器都有 . 或者 # 大家放大图仔细看。

不要拉下这些小符号了

目标采集目标地址:  这是国内某游戏新闻列表页

https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml

打开页面

在页面中 点击右键->检查 即可出现下方的框框。可看到页面的源代码



如图所画:

他每页有十篇新闻

黄色区域就是我们本页面所有文章所在的范围

黄色区域 对应右侧的代码 区域 class = down-nr

解释: 加上 ul  li 会循环每一个文章所在的区域。达到了我们列表批量采集的目的

注意: 这一步 请务必使用debug功能测试。(下面有介绍如何使用)

最终列表采集范围结果  .down-nr>ul>li

列表十篇文章的区域找到了,下面就找找十篇文章区域,所对应的文章链接吧

因为拿到具体的文章链接我们就能去采集每篇文章的内容啊!

恭喜完成第一步

现在我们已经定位到了文章区域,我们现在要找到区域中文章的链接



一般的文章区域只有一个a就是文章地址。但是这个例子不太一样

大家截图中观察 li 里面的文章区域有两个 a

第一个a是新闻列表页地址 第二个a才是我们需要的文章地址

我们用 Jquery 的 eq 语法 a:eq(1)   意是取 所在区域的 第二个 a

注:代码中从 0 开始(只有一个 a标签 可以只填 a 即可),

注:如果目标站链接是相对链接。程序会自动补全的

当当当~

最终列表采集规则:   a:eq(1) href

href 意思选择a标签的 href属性(就是文章地址)

注: 请使用Debug功能(下面有介绍如何使用)

第二步完成了。。。

我们要进入文章详情页面啦、

有点累了。下面大家自己悟把。很简单。



注:请使用Debug功能,每一步都使用debug功能看结果。

详情采集范围   .sub-cont  

解释: 看图 .sub-cont 包括了 标题和内容 是他们的父级区域 选择这个区域可

详情采集规则   title = .n_title 

详情采集规则   content = .sub-nr

解释: 看图 .n_title 是文章的标题

解释: 看图 .sub-nr 使文章的内容

当当当~~~

终于所有的都搞完了。最终 完成的配置 



属性解释

  • href 基本指 a 标签的 href 属性(这个属性存储的是点击后跳转地址)
  • text 取区域的文本 ,一般用于标题
  • html 取区域的所有的html  一般用到取内容,内容比较多。且内容有排版里面有 image css js 很多东西 。所以要拿到所有的原始html

标签过滤怎么用呢?给大家描述一下(多个过滤规则中间使用空格区分)

  • a 就是去除掉区域所有a标签跳转功能。保留文字
  • -a 删除a标签 包括删除a标签里面包含的内容 (不建议使用,因为有些图片是在a里面的 删除a 里面的 图片也没了。)
  • -div 删除所有div
  • -p 同上
  • -b 同上
  • -span 同上
  • -p:first  删除第一个 p标签
  • -p:last  删除最后一个 p标签
  • -p:eq(-2) 删除倒数 二个p
  • -p:eq(2) 删除正数 二个p
  • 就是这个套路…

标签过滤支持所有 Jquery 语法,灰常强大。能帮你处理各种杂乱的数据

请看下图。只是一部分过滤方法。居然更多请自行百度。

请看下图



 请看上图,只是过滤的一部分。大家自行百度,胖鼠采集过滤功能很强大。

新手可以导入默认例子品尝。全部都是配好的规则直接用

 Debug功能使用方法



给大家实战一下



上面是debug是测试采集10条link有没有采集成功。有了link之后就可以采集详情页面了

大家同样要使用debug功能 测试 详情页 title content 是否可以获取正确。

测试过 link title content 三个规则数据都对了。那么采集应该就十拿九稳啦。

一次花点时间配一次 就可以一直使用。希望大家花一点点时间学习一下。

这个网站只是其中一个例子。

目标站 html 与这种不同,可以动动脑筋,多改改。用Debug多看看结果

关于分页采集看这里 http://www.fatrat.cn/fatrat/260.html

还有什么不懂得来找胖鼠把。祝大家用的开心用的愉快!

胖鼠采集,新建采集规则使用方法》有51个想法

    1. 感觉我写的很清晰了。每一步都有截图。
      加上这篇新建规则的文章还有默认例子

      如果还不会的话。建议打赏。留下你的QQ 我来帮你写 打赏金额从六个金额中选一个即可
      再或者只能卸载了 = – =! 哈哈

    1. 知乎 微博 头条 他们只要非ajax页面的,你自己都可以去配置中心自己配。灵活性很高哦
      胖鼠采集由于是安装在你们本地的。有一些服务器限制。
      所以单一的php环境不支持采集 ajax 页面

  1. 昨天按照fatrat的debug 成功实现,现在有一个问题是,源网页的图片怎么处理的?是我没有看到,还是其它原因,在得到回复前,我继续探索。谢谢大大。另外,有没有群之类的,大家可以交流,谢谢

    1. 图片 胖鼠采集会下载目标站的图片然后存储在服务器wp-upload目录里面
      有qq群,QQ可以直接搜索胖鼠采集。或者todo页面尾部

    1. 当时做的时候考虑到,多一个缩略图,多一个字段,新人上手难度会增加,还有些网站就没有缩略图。综合考虑所加上。后续版本可能会考虑取文章首图作为缩略图。

    1. 使用分页数据爬取功能。
      把页码替换为 {page} 关键字。
      如果是瀑布流没有页码的话 那不支持

  2. 可以自定义字段吗?比如增加特色图、摘要等,另外没懂图片怎么处理的,为什么媒体库里没看到图,但地址确实本站的

    1. 图片直接下载到你服务器上的,当时为鼠友服务器性能考虑。没有入库,所以你媒体库看不到。

  3. 以上代码,
    我范围:.wcommonFeed>ul>li
    采集规则: JQuery选择器: div>div:last>a:eq(0)

    这样对吗?我配置了,但是debug没成功。

      1. 全部搞定了,自己慢慢摸索,找到窍门了,非常爽的采集插件,作者的教程有很大的帮助,其实还有一个方法 查看元素的时候,一般谷歌或者火狐游览器都会有 css (层级显示),可以很直接找到 采集范围

  4. 采集规则里,只能指定最后一个标签或者第一个标签。比如我想删除倒数第二个标签怎么写,比如div,都是嵌套的,我本来想删除最后一个大的div,发现里边还嵌套着一个div,结果就是删掉了最后一个小的,实际上我要删的变成了嵌套它的倒数第二个div了。看了半天那个语言表也没有,可以写吗?

  5. 列表采集有个缺陷,看看能否修补,目前的列表采集的循环采集是建立在div标签下的列表,如果列表是在table里边就没法循环采集,因为每一行对应的一个表格都有自己的路径比如table:nth-child(9) ,其中数字根据不同的行是往下边依序排列的,而不像div,每一个div嵌套都是div,命名都一样。那遇到列表的链接都在表格的每一行里应该如何采集,比如下面的这个链接http://85cc.cc 里边的列表是在表格里,最后只能采集到一个链接,而无法循环采集。

    1. 可以直接采集table里面所有的a呢,或者其他方法。你这个网址我打不开没法具体给你说明,欢迎入群

  6. 为何图片无法采集成功呢,比如这个页面http://www.todayfocus.cn/p/19865.html
    选择范围是.article-view
    J-query选择器填的.article-main 属性是html
    文字和样式都能采集出来,但是图片就显示不出来
    如果我直接手动复制粘贴那个页面的相关内容到wordpress里发布文章图片都能显示出来,不知道问题出在哪里

      1. 我升级了最新版本,用那个采集规则后,采集显示完成,数据中心里边找不到文章,同样的规则在升级之前是可以成功采集到文章的,只是图片无法显示。我又进入配置里边debug调试是有结果的,但是图片依然无法显示。
        我想加高级群,但我是海外客户,没有中国银行卡支付账户,无法付费购买门票进不去群,加了初级群还没通过。
        你是否有paypal,我可以给你打点钱过去,你把我加进高级群吧

  7. 我刚升级了1.8.2,情况和1.8一样,在升级之前可以采集到文章,同样的url,同样的采集规则。debug有结果,但采集后数据中心没文章。而且debug的结果是图片依然无法显示。由于现在加不进去高级群,作为支持我在wordpress那里的插件页面给你评了个好评。
    另外,你的paypal发下,给你打点钱支持,如果中国国内申请认证麻烦,你可以来这里buymeacoffee.com 注册相对简单点,可以先收钱积累到一定程度你可以设置银行转账电汇到你的银行。
    腾讯的产品海外客户没办法用它的支付认证不了银行账户,你弄个海外收款渠道,对于未来发展也好。

  8. 感谢您提供这么好的工具,询问下,比如文章页面 有1 2 3 4 5 个页面,我试了下采集规则,只能采集到第一个页面的内容 ,文章分页,需要怎么采集呢?.

      1. 您这个文章我有看,你这个是采集的列表页的分页面,我的意思是文章内容里面有分页,需要怎么采集呢?

  9. 博主,我采集了成功了,但是图片是404,没有保存到本地似乎,是需要额外什么设置,还是需要权限么?我wwwroot的权限是给nginx操作的

    1. 下载图片超时 或 有防采集图片策略。你的媒体库能上传图片。就不是权限问题。采集每个站点都不一样。情况比较多。

  10. 胖鼠大大,请问怎么设置公众号自动采集呢?还是说现在只能每次就复制文章地址?感谢!

  11. 作者大大,采集图片网站,图片内容比较多,采集会导致很多失败的,这个时候需要修改哪些设置呢?

发表评论

电子邮件地址不会被公开。 必填项已用*标注