胖鼠采集 – 内容过滤功能描述插图

胖鼠采集 – 内容过滤功能描述

内容过滤

内容过滤是我们文章采集的好帮手。

正文内容中包含了作者信息广告版权声明等这些无用信息,我们需要从正文内容中过滤掉这些内容,这些内容是变化的,每篇文章都不一样,所以是无法直接用字符串替换函数去除的,胖鼠采集提供了非常简单的去除方式

他可以帮助我们过滤任何不想要的页面属性
  • img
  • class
  • p
  • div
  • 等等…

还可以指定处理 第几个某某属性、

内容过滤选择器参数不光可以定义要移除的内容还可以定义要保留的内容,多个值之间用空格隔开

例:
  • a 去除a标签保留a中文字
  • -a 去除整个a标签
  • -img:gt(-4) 去除文章底部倒数3张图片!
  • -img:eq(1) 只过滤文章正文第2张图片 (程序从0开始)
  • -p:first 删除第一个p
  • -p 删除所有p
  • -p:last 删除最后一个p
  • ul>li>a:odd 只取奇数a

多个过滤规则使用 空格 隔开

更多使用方式请自行探索喔.

胖鼠采集 – 内容过滤功能描述》有9个想法

  1. “这个古登堡编辑器用不习惯。贴个图片可费劲。先不写了。。。回头用习惯再来” 还是多写写吧,比如如何去掉倒数第二个,倒数第三个,倒数第四个标签这种怎么写啊

    其实之前经典的Classic Editor编辑器代码,在WordPress 5.0并没有被删除,上述插件也只是个切换开关而已。

    关键代码就一句:

    add_filter(‘use_block_editor_for_post’, ‘__return_false’);
    将代码添加到当前主题函数模板functions.php中,即可切换回之前的编辑器

  2. 对方的网站新闻列表页 如果有微信链接 跳转打开微信公众号文章 这样的可以采集吗 自动采集后是把采集列表所有的都自动采集吗

留学世界热点关注进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注