博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
jsoup之文本过滤
阅读量:4111 次
发布时间:2019-05-25

本文共 330 字,大约阅读时间需要 1 分钟。

背景:

基于jsoup(v 1.6.3)解析出来的网页内容进行过滤不需要的内容比如<script>

实现:

一种方式是基于tag的白名单,这种方式明显没有黑名单合适,不过jsoup木有提供黑名单功能

直接基于正则,常用的如下:

如:过滤<script>

String reg = "<\\s*?script[^>]*?>[\\s\\S]*?<\\s*?/\\s*?script\\s*?>";Pattern pattern = Pattern.compile(reg);Matcher matcher = pattern.matcher(content.html());articleVo.setContent(matcher.replaceAll(""));

转载地址:http://jqqsi.baihongyu.com/

你可能感兴趣的文章
Ubuntu Could not open lock file /var/lib/dpkg/lock - open (13:Permission denied)
查看>>
collect2: ld returned 1 exit status
查看>>
C#入门
查看>>
查找最大值最小值
查看>>
C#中ColorDialog需点两次确定才会退出的问题
查看>>
数据库
查看>>
nginx反代 499 502 bad gateway 和timeout
查看>>
linux虚拟机安装tar.gz版jdk步骤详解
查看>>
python猜拳游戏
查看>>
python实现100以内自然数之和,偶数之和
查看>>
python数字逆序输出及多个print输出在同一行
查看>>
ESP8266 WIFI数传 Pixhaw折腾笔记
查看>>
苏宁产品经理面经
查看>>
百度产品经理群面
查看>>
去哪儿一面+平安科技二面+hr面+贝贝一面+二面产品面经
查看>>
element ui 弹窗在IE11中关闭时闪现问题修复
查看>>
vue 遍历对象并动态绑定在下拉列表中
查看>>
Vue动态生成el-checkbox点击无法选中的解决方法
查看>>
python __future__
查看>>
MySQL Tricks1
查看>>