正则、表达式删除指定的HTML 标签

2020-03-24 15:49:13

字体：大中小

来源：转载

供稿：网友

抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

神奇影院[www.aikan.tv/special/shenqiyingyuan/]
　　html' target='_blank'>正则表达式里,判断包含某些字符串是非常容易理解的,但是如何判断不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.
　　<(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>
　　这个正则是判断HTML标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要删除除这里列出的HTML标签,这也是我摸索了很长时间才搞出来的.
　　(?!exp) 匹配后面跟的不是exp的位置
　　/?s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.
　　下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除...
　　private static string RemoveSpecifyHtml(string ctx) {
　　string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag
　　// <(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>
　　string regStr = string.Format(@"<(?!((/?s?{0})))[^>]+>", string.Join(@")|(/?s?", holdTags));
　　Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);
　　return reg.Replace(ctx, "");
　　}
　　----------------------------
　　修正:
　　上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 b 断言.
　　<(?!((/?s?lib)|(/?s?ul)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>
　　private static string RemoveSpecifyHtml(string ctx) {
　　string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag
　　// <(?!((/?s?lib)|(/?s?ulb)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>
　　string regStr = string.Format(@"<(?!((/?s?{0})))[^>]+>", string.Join(@"b)|(/?s?", holdTags));
　　Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);
　　return reg.Replace(ctx, "");
　　}

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

上一篇：html5 datalist标签的用法是什么？这里有datalist标签的用法实例

下一篇：HTML拖、放表格

发表评论 共有条评论

用户名: 密码:

验证码: 匿名发表

学习交流

更多

MBR怎么转换为GPT？硬盘MBR格式

威刚发布新一代Ultimate SU900

MBR怎么转换为GPT？硬盘MBR格式转换成GPT格
MBR怎么转换为GPT？硬盘MBR格式转换成GPT格式教程...

快剪辑自带水印可以消除，只需简单设置12-24

飞鸽传书好友列表显示异常？或许是这两个原因12-24

下载网页中视频的方法~~12-24

教你用拼音打出来不认识的字~~12-24

Nginx服务器上安装并配置PHPMyAdmin的教程03-22

Mac配置虚拟主机详细过程03-22

关于集群、分布式和负载均衡的区别有哪些？（03-22

phpMyAdmin4.4.10安装03-22

phpmyadmin导入数据最大限制2048KB的解决方03-22

热门图片

更多

校园甜美的背影，洋溢着青春烂漫的回忆

芭蕾舞蹈表演，真实美到极致

春天的魅力：绿杨烟外晓寒轻

春节临近，各地春节彩灯高高挂

肉食主义者的最爱美食烤肉图片

夏日甜心草莓美食图片

人逢知己千杯少，喝酒搞笑图集

搞笑试卷，学生恶搞答题

猜你喜欢的新闻

陌陌成立文化传播新公司联合创始人雷小亮

美团云5月31日起停止对用户服务

中国移动2019年净利润1066亿元超出预期

国内油价重回“5元时代” 92号汽油每升下调

腾讯在天津成立新公司斥资2亿元人民币

软银集团或放弃收购WeWork 30亿美元收购要

全球十大IC设计公司最新排名

光刻机霸主阿斯麦(ASML)：控制芯片产业链上游

博通状告Netflix侵犯专利：电视没人看，我们受

比尔·盖茨退出公司董事会将继续担任公司

猜你喜欢的关注

html5 自定义播放器核心代码

html style标签是什么意思？关于style标签的

html在鼠标按钮在元素上按下时触发的事件属

html如何给table表单加边框

html5 viewport使用方法示例详解

HTML对于元素水平垂直居中的探讨

html form标签name属性怎么用？form标签的nam

HTML5 canvas基本绘图之绘制线段

XHTML：两种语言的力量

html中空格字符实体的详细介绍