首页 > 编程 > .NET > 正文

.NET正则表达式使用高级技巧之反向引用

2024-07-10 13:11:28
字体:
来源:转载
供稿:网友
  • 本文来源于网页设计爱好者web开发社区http://www.html.org.cn收集整理,欢迎访问。
  •   反向引用,指把匹配出来的组引用到表达式本身其它地方,比如,在匹配html的标记时,我们匹配出一个<a>,我们要把匹配出来的a引用出来,用来找到</a>,这个时候就要用到反向引用。

      语法

      a、反向引用编号的组,语法为/number

      b、反向引用命名的组,语法为/k<name>

      举例

      a、匹配成对的html标签

    @"<(?<tag>[^/s>]+)[^>]*>.*<//k<tag>>"

      b、匹配两个两个重叠出现的字符

    public static void main()
    {
    string s = "aabbc11asd";
    regex reg = new regex(@"(/w)/1");
    matchcollection matches = reg.matches(s);
    foreach(match m in matches)
    console.writeline(m.value);
    console.readline();
    }

      返回结果为aa bb 11

      辅助匹配组

      以下几种组结构,括号中的pattern都不作为匹配结果的一部分进行保存

      1、正声明(?=)

      涵义:括号中的模式必须出现在声明右侧,但不作为匹配的一部分

    public static void main()
    {
    string s = "c#.net,vb.net,php,java,jscript.net";
    regex reg = new regex(@"[/w/#]+(?=/.net)",regexoptions.compiled);
    matchcollection mc = reg.matches(s);
    foreach(match m in mc)
    console.writeline(m.value);
    console.readline();
    //输出 c# vb jscript
    }

      可以看到匹配引擎要求匹配.net,但却不把.net放到匹配结果中

      2、负声明(?!)

      涵义:括号中的模式必须不出现在声明右侧

      下例演示如何取得一个<a>标签对中的全部内容,即使其中包含别的html tag。

    public static void main()
    {
    string newscontent = @"url:<a href=""1.html""><img src=""http://www.VeVb.com/htmldata/2006-03-23/http://www.VeVb.com/htmldata/2006-03-23/1.gif"">test<span color:red;"">regex</span></a>.";
    regex regend = new regex(@"</s*a[^>]*>([^<]|<(?!/a))*</s*/a/s*>",regexoptions.multiline);

    console.writeline(regend.match(newscontent).value);
    //result: <a href="1.html"><img src="http://www.VeVb.com/htmldata/2006-03-23/http://www.VeVb.com/htmldata/2006-03-23/1.gif">test<span >regex</span></a>
    console.readline();
    }

      3、反向正声明(?<=)

      涵义:括号中的模式必须出现在声明左侧,但不作为匹配的一部分

      4、反向负声明(?<!)

      涵义:括号中的模式必须不出现在声明左侧

      非回溯匹配

      语法:(?>)

      涵义:该组匹配后,其匹配的字符不能通过回溯用于后面的表达式的匹配。呵呵,光看这句话肯定搞不懂,我当初为了搞懂这个也花了不少的时间,还是通过实例来说明吧:
    "www.csdn.net" 可以通过@"/w+/.(.*)/./w+"来匹配,却不能通过@"/w+/.(?>.*)/./w+"来匹配!为什么呢?

      原因是正则匹配是贪婪的,匹配时它会尽可能多的匹配最多的结果,所以,上例两个正则式中的.*都会把csdn.net匹配完, 这个时候,第一个表达式在开始匹配时发现/./w+没得字符给它匹配了,所以它会进行回溯,所谓回溯,就是把.*匹配的结果往回推,回推留出来的字符再用来匹配/./w+,直到/./w+匹配成功,整个表达式返回成功的匹配结果。而第二个表达式,因使用的是非回溯匹配,所以,.*匹配完后,不允许通过回溯来匹配/./w+,所以整个表达式匹配失败。

      请注意,回溯匹配是很浪费资源的一种匹配方式,所以,请尽量避免您的正则式要通过回溯来成功匹配,如上例,可以换成@"/w+/.([^/.]+/.)+/w+"+"。
    发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表