胖鼠采集 – 内容过滤功能描述插图

胖鼠采集 – 内容过滤功能描述

内容过滤

内容过滤是我们文章采集的好帮手。

正文内容中包含了作者信息广告版权声明等这些无用信息,我们需要从正文内容中过滤掉这些内容,这些内容是变化的,每篇文章都不一样,所以是无法直接用字符串替换函数去除的,胖鼠采集提供了非常简单的去除方式

他可以帮助我们过滤任何不想要的页面属性
  • img
  • class
  • p
  • div

还可以指定处理 第几个某某属性、

内容过滤选择器参数不光可以定义要移除的内容还可以定义要保留的内容,多个值之间用空格隔开

<html> <div id="content">
<p>这是正文内容广告9......</p>
<span class="tt">作者:xxx</span> 这是正文内容段落1.....
<img src='xxxxxxxx'......> <span>这是正文内容段落2</span> <p>这是正文内容段落3......</p>
<img src='xxxxxxxx'......>
<p>这是正文内容段落3......</p> <a href="http://www.fatrat.cn">胖鼠采集官网</a> <span>这是广告</span> <p>这是版权声明!</p> </div> </html>
胖鼠采集 – 内容过滤功能描述插图


这个古登堡编辑器用不习惯。贴个图片可费劲。先不写了。。。回头用习惯再来

胖鼠采集 – 内容过滤功能描述》有1个想法

  1. “这个古登堡编辑器用不习惯。贴个图片可费劲。先不写了。。。回头用习惯再来” 还是多写写吧,比如如何去掉倒数第二个,倒数第三个,倒数第四个标签这种怎么写啊

    其实之前经典的Classic Editor编辑器代码,在WordPress 5.0并没有被删除,上述插件也只是个切换开关而已。

    关键代码就一句:

    add_filter(‘use_block_editor_for_post’, ‘__return_false’);
    将代码添加到当前主题函数模板functions.php中,即可切换回之前的编辑器

发表评论

电子邮件地址不会被公开。 必填项已用*标注