胖鼠采集,新建采集规则使用方法插图

胖鼠采集,新建采集规则使用方法

胖鼠采集,新建采集规则使用方法插图

简单的采集规则让不懂代码的同学

胖鼠采集 – 新建规则(寻仙)视频教程

QQ群: 胖鼠采集 454049736 胖鼠采集 2群 846069514

代写规则请点这里

通过简单学习掌握爬虫技巧是胖鼠采集的核心

下面带领大家来创建一个采集规则。

核心五部曲: 列表采集规则核心只需要填写这五个空。


胖鼠采集,新建采集规则使用方法插图(1)

  • 采集地址: 大家采集目标页面的地址
  • 采集范围: 你要采集目标页面的哪一块数据
  • 采集规则: Jquery选择器,选择页面上的区域
  • 详情页采集范围: 同上
  • 详情页采集规则: 同上

来看这是一个例子

先科普一下, 在 html 中

class 对应 Jquery 的 .

id 对应 Jquery 的 #

我下面的例子中每个选择器都有 . 或者 # 大家放大图仔细看。

不要拉下这些小符号了

目标采集目标地址:  这是国内某游戏新闻列表页

https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml

打开页面

在页面中 点击右键->检查 即可出现下方的框框。可看到页面的源代码


胖鼠采集,新建采集规则使用方法插图(2)

如图所画:

他每页有十篇新闻

黄色区域就是我们本页面所有文章所在的范围

黄色区域 对应右侧的代码 区域 class = down-nr

解释: 加上 ul  li 会循环每一个文章所在的区域。达到了我们列表批量采集的目的

注意: 这一步 请务必使用debug功能测试。(下面有介绍如何使用)

最终列表采集范围结果  .down-nr>ul>li

列表十篇文章的区域找到了,下面就找找十篇文章区域,所对应的文章链接吧

因为拿到具体的文章链接我们就能去采集每篇文章的内容啊!

恭喜完成第一步

现在我们已经定位到了文章区域,我们现在要找到区域中文章的链接


胖鼠采集,新建采集规则使用方法插图(3)

一般的文章区域只有一个a就是文章地址。但是这个例子不太一样

大家截图中观察 li 里面的文章区域有两个 a

第一个a是新闻列表页地址 第二个a才是我们需要的文章地址

我们用 Jquery 的 eq 语法 a:eq(1)   意是取 所在区域的 第二个 a

注:代码中从 0 开始(只有一个 a标签 可以只填 a 即可),

注:如果目标站链接是相对链接。程序会自动补全的

当当当~

最终列表采集规则:   a:eq(1) href

href 意思选择a标签的 href属性(就是文章地址)

注: 请使用Debug功能(下面有介绍如何使用)

第二步完成了。。。

我们要进入文章详情页面啦、

有点累了。下面大家自己悟把。很简单。


胖鼠采集,新建采集规则使用方法插图(4)

注:请使用Debug功能,每一步都使用debug功能看结果。

详情采集范围   .sub-cont  

解释: 看图 .sub-cont 包括了 标题和内容 是他们的父级区域 选择这个区域可

详情采集规则   title = .n_title 

详情采集规则   content = .sub-nr

解释: 看图 .n_title 是文章的标题

解释: 看图 .sub-nr 使文章的内容

当当当~~~

终于所有的都搞完了。最终 完成的配置 


胖鼠采集,新建采集规则使用方法插图(5)

属性解释

  • href 基本指 a 标签的 href 属性(这个属性存储的是点击后跳转地址)
  • text 取区域的文本 ,一般用于标题
  • html 取区域的所有的html  一般用到取内容,内容比较多。且内容有排版里面有 image css js 很多东西 。所以要拿到所有的原始html

标签过滤怎么用呢?给大家描述一下(多个过滤规则中间使用空格区分)

  • a 就是去除掉区域所有a标签跳转功能。保留文字
  • -a 删除a标签 包括删除a标签里面包含的内容 (不建议使用,因为有些图片是在a里面的 删除a 里面的 图片也没了。)
  • -div 删除所有div
  • -p 同上
  • -b 同上
  • -span 同上
  • -p:first  删除第一个 p标签
  • -p:last  删除最后一个 p标签
  • -p:eq(-2) 删除倒数 二个p
  • -p:eq(2) 删除正数 二个p
  • 就是这个套路…

标签过滤支持所有 Jquery 语法,灰常强大。能帮你处理各种杂乱的数据

请看下图。只是一部分过滤方法。居然更多请自行百度。

请看下图


胖鼠采集,新建采集规则使用方法插图(6)

 请看上图,只是过滤的一部分。大家自行百度,胖鼠采集过滤功能很强大。

新手可以导入默认例子品尝。全部都是配好的规则直接用

 Debug功能使用方法


胖鼠采集,新建采集规则使用方法插图(7)

给大家实战一下


胖鼠采集,新建采集规则使用方法插图(8)

上面是debug是测试采集10条link有没有采集成功。有了link之后就可以采集详情页面了

大家同样要使用debug功能 测试 详情页 title content 是否可以获取正确。

测试过 link title content 三个规则数据都对了。那么采集应该就十拿九稳啦。

一次花点时间配一次 就可以一直使用。希望大家花一点点时间学习一下。

这个网站只是其中一个例子。

目标站 html 与这种不同,可以动动脑筋,多改改。用Debug多看看结果

关于分页采集看这里 http://www.fatrat.cn/fatrat/260.html

还有什么不懂得来找胖鼠把。祝大家用的开心用的愉快!

胖鼠采集,新建采集规则使用方法》有74个想法

    1. 感觉我写的很清晰了。每一步都有截图。
      加上这篇新建规则的文章还有默认例子

      如果还不会的话。建议打赏。留下你的QQ 我来帮你写 打赏金额从六个金额中选一个即可
      再或者只能卸载了 = – =! 哈哈

    1. 知乎 微博 头条 他们只要非ajax页面的,你自己都可以去配置中心自己配。灵活性很高哦
      胖鼠采集由于是安装在你们本地的。有一些服务器限制。
      所以单一的php环境不支持采集 ajax 页面

  1. 昨天按照fatrat的debug 成功实现,现在有一个问题是,源网页的图片怎么处理的?是我没有看到,还是其它原因,在得到回复前,我继续探索。谢谢大大。另外,有没有群之类的,大家可以交流,谢谢

    1. 图片 胖鼠采集会下载目标站的图片然后存储在服务器wp-upload目录里面
      有qq群,QQ可以直接搜索胖鼠采集。或者todo页面尾部

    1. 当时做的时候考虑到,多一个缩略图,多一个字段,新人上手难度会增加,还有些网站就没有缩略图。综合考虑所加上。后续版本可能会考虑取文章首图作为缩略图。

    1. 使用分页数据爬取功能。
      把页码替换为 {page} 关键字。
      如果是瀑布流没有页码的话 那不支持

  2. 可以自定义字段吗?比如增加特色图、摘要等,另外没懂图片怎么处理的,为什么媒体库里没看到图,但地址确实本站的

    1. 图片直接下载到你服务器上的,当时为鼠友服务器性能考虑。没有入库,所以你媒体库看不到。

  3. 以上代码,
    我范围:.wcommonFeed>ul>li
    采集规则: JQuery选择器: div>div:last>a:eq(0)

    这样对吗?我配置了,但是debug没成功。

      1. 全部搞定了,自己慢慢摸索,找到窍门了,非常爽的采集插件,作者的教程有很大的帮助,其实还有一个方法 查看元素的时候,一般谷歌或者火狐游览器都会有 css (层级显示),可以很直接找到 采集范围

  4. 采集规则里,只能指定最后一个标签或者第一个标签。比如我想删除倒数第二个标签怎么写,比如div,都是嵌套的,我本来想删除最后一个大的div,发现里边还嵌套着一个div,结果就是删掉了最后一个小的,实际上我要删的变成了嵌套它的倒数第二个div了。看了半天那个语言表也没有,可以写吗?

  5. 列表采集有个缺陷,看看能否修补,目前的列表采集的循环采集是建立在div标签下的列表,如果列表是在table里边就没法循环采集,因为每一行对应的一个表格都有自己的路径比如table:nth-child(9) ,其中数字根据不同的行是往下边依序排列的,而不像div,每一个div嵌套都是div,命名都一样。那遇到列表的链接都在表格的每一行里应该如何采集,比如下面的这个链接http://85cc.cc 里边的列表是在表格里,最后只能采集到一个链接,而无法循环采集。

    1. 可以直接采集table里面所有的a呢,或者其他方法。你这个网址我打不开没法具体给你说明,欢迎入群

  6. 为何图片无法采集成功呢,比如这个页面http://www.todayfocus.cn/p/19865.html
    选择范围是.article-view
    J-query选择器填的.article-main 属性是html
    文字和样式都能采集出来,但是图片就显示不出来
    如果我直接手动复制粘贴那个页面的相关内容到wordpress里发布文章图片都能显示出来,不知道问题出在哪里

      1. 我升级了最新版本,用那个采集规则后,采集显示完成,数据中心里边找不到文章,同样的规则在升级之前是可以成功采集到文章的,只是图片无法显示。我又进入配置里边debug调试是有结果的,但是图片依然无法显示。
        我想加高级群,但我是海外客户,没有中国银行卡支付账户,无法付费购买门票进不去群,加了初级群还没通过。
        你是否有paypal,我可以给你打点钱过去,你把我加进高级群吧

  7. 我刚升级了1.8.2,情况和1.8一样,在升级之前可以采集到文章,同样的url,同样的采集规则。debug有结果,但采集后数据中心没文章。而且debug的结果是图片依然无法显示。由于现在加不进去高级群,作为支持我在wordpress那里的插件页面给你评了个好评。
    另外,你的paypal发下,给你打点钱支持,如果中国国内申请认证麻烦,你可以来这里buymeacoffee.com 注册相对简单点,可以先收钱积累到一定程度你可以设置银行转账电汇到你的银行。
    腾讯的产品海外客户没办法用它的支付认证不了银行账户,你弄个海外收款渠道,对于未来发展也好。

  8. 感谢您提供这么好的工具,询问下,比如文章页面 有1 2 3 4 5 个页面,我试了下采集规则,只能采集到第一个页面的内容 ,文章分页,需要怎么采集呢?.

      1. 您这个文章我有看,你这个是采集的列表页的分页面,我的意思是文章内容里面有分页,需要怎么采集呢?

  9. 博主,我采集了成功了,但是图片是404,没有保存到本地似乎,是需要额外什么设置,还是需要权限么?我wwwroot的权限是给nginx操作的

    1. 下载图片超时 或 有防采集图片策略。你的媒体库能上传图片。就不是权限问题。采集每个站点都不一样。情况比较多。

  10. 胖鼠大大,请问怎么设置公众号自动采集呢?还是说现在只能每次就复制文章地址?感谢!

  11. 作者大大,采集图片网站,图片内容比较多,采集会导致很多失败的,这个时候需要修改哪些设置呢?

  12. 你好!.

    我可以在哪里免费下载XEvil在您的网站?
    从你的支持得到的信息。 XEvil确实是解决验证码的最佳方案,但我需要最新版本。

    多謝。.

  13. 阿里云轻应用服务器 ,php版本5.6.3 无法使用您说的5.6的那个版本,安装后提示插件无法运行在服务器环境!怎么解决?

    1. 您的插件提示的是 错误码:5003 检测到你当前PHP版本为5.6.31. 请去胖鼠采集的Github下载使用胖鼠v5.6版本 分支名: based_php_5.6! 下载了,安装后启用提示无法运行。

  14. 你好,我是wordpress新站站长,苦于没有时间和精力更新,现在想用胖鼠采集VX公ZHONG号的文章,理想是每天监测到最新文章后自动发布到woredpress的固定栏目(发到其他栏目网站体验不好,想专门开一个采集的栏目),请问现在这个功能更新了吗?

  15. 帅哥 点了图片本地化 但是采集的文章图片链接还是源站的 是不支持上传阿里云oss吗 默认微信采集是正常上传到oss的 盼回复!

  16. Parse error: syntax error, unexpected ‘.’, expecting ‘&’ or variable (T_VARIABLE) in /www/wwwroot/www.delicacy-life.com/wp-content/plugins/fat-rat-collect/vendor/illuminate/support/helpers.php on line 524

    请问这个错误怎么解决

会飞的雨进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注