.NET正则表达式使用高级技巧之反向引用

2024-07-10 13:11:28

字体：大中小

来源：转载

供稿：网友

本文来源于网页设计爱好者web开发社区http://www.html.org.cn收集整理，欢迎访问。

　　反向引用，指把匹配出来的组引用到表达式本身其它地方，比如，在匹配html的标记时，我们匹配出一个＜a＞,我们要把匹配出来的a引用出来，用来找到＜/a＞，这个时候就要用到反向引用。

　　语法

　　a、反向引用编号的组，语法为/number

　　b、反向引用命名的组，语法为/k＜name＞

　　举例

　　a、匹配成对的html标签

@"＜(?＜tag＞[^/s＞]+)[^＞]*＞.*＜//k＜tag＞＞"

　　b、匹配两个两个重叠出现的字符

public static void main()
{
string s = "aabbc11asd";
regex reg = new regex(@"(/w)/1");
matchcollection matches = reg.matches(s);
foreach(match m in matches)
console.writeline(m.value);
console.readline();
}

　　返回结果为aa bb 11

　　辅助匹配组

　　以下几种组结构，括号中的pattern都不作为匹配结果的一部分进行保存

　　1、正声明(?=)

　　涵义：括号中的模式必须出现在声明右侧，但不作为匹配的一部分

public static void main()
{
string s = "c#.net,vb.net,php,java,jscript.net";
regex reg = new regex(@"[/w/#]+(?=/.net)",regexoptions.compiled);
matchcollection mc = reg.matches(s);
foreach(match m in mc)
console.writeline(m.value);
console.readline();
//输出 c# vb jscript
}

　　可以看到匹配引擎要求匹配.net，但却不把.net放到匹配结果中

　　2、负声明(?!)

　　涵义：括号中的模式必须不出现在声明右侧

　　下例演示如何取得一个＜a＞标签对中的全部内容，即使其中包含别的html tag。

public static void main()
{
string newscontent = @"url:＜a href=""1.html""＞＜img src=""http://www.VeVb.com/htmldata/2006-03-23/http://www.VeVb.com/htmldata/2006-03-23/1.gif""＞test＜span color:red;""＞regex＜/span＞＜/a＞.";
regex regend = new regex(@"＜/s*a[^＞]*＞([^＜]|＜(?!/a))*＜/s*/a/s*＞",regexoptions.multiline);

console.writeline(regend.match(newscontent).value);
//result: ＜a href="1.html"＞＜img src="http://www.VeVb.com/htmldata/2006-03-23/http://www.VeVb.com/htmldata/2006-03-23/1.gif"＞test＜span ＞regex＜/span＞＜/a＞
console.readline();
}

　　3、反向正声明(?＜=)

　　涵义：括号中的模式必须出现在声明左侧，但不作为匹配的一部分

　　4、反向负声明(?＜!)

　　涵义：括号中的模式必须不出现在声明左侧

　　非回溯匹配

　　语法：(?＞)

　　涵义：该组匹配后，其匹配的字符不能通过回溯用于后面的表达式的匹配。呵呵，光看这句话肯定搞不懂，我当初为了搞懂这个也花了不少的时间，还是通过实例来说明吧：
"www.csdn.net" 可以通过@"/w+/.(.*)/./w+"来匹配，却不能通过@"/w+/.(?＞.*)/./w+"来匹配！为什么呢？

　　原因是正则匹配是贪婪的，匹配时它会尽可能多的匹配最多的结果，所以，上例两个正则式中的.*都会把csdn.net匹配完，这个时候，第一个表达式在开始匹配时发现/./w+没得字符给它匹配了，所以它会进行回溯，所谓回溯，就是把.*匹配的结果往回推，回推留出来的字符再用来匹配/./w+,直到/./w+匹配成功，整个表达式返回成功的匹配结果。而第二个表达式，因使用的是非回溯匹配，所以，.*匹配完后，不允许通过回溯来匹配/./w+，所以整个表达式匹配失败。

　　请注意，回溯匹配是很浪费资源的一种匹配方式，所以，请尽量避免您的正则式要通过回溯来成功匹配，如上例，可以换成@"/w+/.([^/.]+/.)+/w+"+"。

上一篇：ASP.NET无限分类

下一篇：使用asp.net进行多关键字查询的例子