首页 > 编程 > Regex > 正文

正则表达式中最短匹配模式的用法浅析

2020-03-16 20:53:01
字体:
来源:转载
供稿:网友

前言

最近有一次想用正则表达式从网页里面抓取一些东西出来,内容不复杂却出现不少问题。下面话不多说,来一起看看详细的介绍:

当我们用正则表达式去匹配一个标签的首尾的时候,比如匹配 <h1>hello world</h1> 中的 h1 的开始和闭合标签

可能很多人会这样写

/<.*h1>/g

但是这样真的可以吗?

因为 * 匹配符是匹配前面一个字符的零到多个,而且它是贪婪匹配的

所以你得到的就会是下面的结果了。

正则表达式,最短匹配,正则表达式匹配最短的,最短

显然这并不是我们想要的,那么怎么把贪婪匹配换成最小匹配呢,

/<.*?h1>/g

上面的写法就可以了,如下图:

正则表达式,最短匹配,正则表达式匹配最短的,最短

其实原理应该很简单,因为 ? 也是贪婪匹配,并且只能匹配0到1个,

所以它会匹配到第一个的时候就结束了,从而阻止了 * 的匹配多个的贪婪。

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对VEVB武林网的支持。


注:相关教程知识阅读请移步到正则表达式频道。
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表